论文浅尝 - ISWC2021 | 当知识图谱遇上零样本视觉问答
論文題目:Zero-shot Visual Question Answering using Knowledge Graph
本文作者:陳卓(浙江大學)、陳矯彥(牛津大學)、耿玉霞(浙江大學)、Jeff Z. Pan(愛丁堡大學)、苑宗港(華為)、陳華鈞(浙江大學)
發表會議:ISWC 2021
論文鏈接:https://arxiv.org/pdf/2107.05348.pdf
代碼鏈接:https://github.com/China-UK-ZSL/ZS-F-VQA
歡迎轉載,轉載請注明出處
引言
將外部知識引入視覺問答(Visual Question Answering, VQA)已成為一個重要的實際需求。現有的許多方法采用pipeline的模式,多模塊分工進行跨模態知識處理和特征學習,但這種模式下,中間件的性能瓶頸會導致不可逆轉的誤差傳播(Error Cascading)。此外,大多數已有工作都忽略了答案偏見問題——因為長尾效應的存在,真實世界許多答案在模型訓練過程中可能不曾出現過(Unseen Answer)。
在本文中,我們提出了一種適用于零樣本視覺問答(ZS-VQA)的基于知識圖譜的掩碼機制,更好結合外部知識的同時,一定程度緩解了誤差傳播對于模型性能的影響。并在原有F-VQA數據集基礎上,提供了基于Seen / Unseen答案類別為劃分依據的零樣本VQA數據集(ZS-F-VQA)。實驗表明,我們的方法可以在該數據集下達到最佳性能,同時還可以顯著增強端到端模型在標準F-VQA任務上的性能效果。
一、前言
我們生活在一個多模態的世界中。視覺的捕捉與理解,知識的學習與感知,語言的交流與表達,諸多方面的信息促進著我們對于世界的認知。作為多模態領域的一個典型場景,VQA旨在結合視覺的信息來回答所提出的問題。從15年首次被提出至今,其涉及的方法從最開始的聯合編碼,到雙線性融合,注意力機制,組合模型,場景圖,再到引入外部知識,進行知識推理,以及使用圖網絡,多模態預訓練語言模型…近年來發展迅速。18年Qi Wu等首先提出引入外部知識的KB-VQA問題(FVQA[1]),貢獻領域重要數據集(每個問題的回答必須依賴圖片以外知識)的同時提出了一種基于知識子圖生成并構建查詢語句(SPARQL)的方法來解決該問題。以其為代表的后來一系列pipeline模式模型,流程繁瑣部署困難的同時還面臨著誤差傳遞的風險。傳統端到端方法,盡管某種程度上避免了誤差傳遞,但大多將VQA作為分類任務,這使得其無法對超出候選答案以外(out-of-vocabulary, OOV)的結果進行預測,也即我們提到的零樣本學習(Zero-shot Learning, ZSL)。
人天生就具有強大的領域遷移能力,且這種能力往往不需要很多的樣本,甚至僅需一些規則描述,根據過往的經驗與知識就可以迅速適應一個新的領域,并對新概念進行認知。基于此假設,我們設計零樣本下的外部知識VQA:測試集答案與訓練集的答案沒有重疊。即,在原有F-VQA數據集基礎上,提供以Seen / Unseen答案類別為劃分依據的ZS-F-VQA數據集,并提出了一種適用于零樣本視覺問答(ZS-VQA)的基于知識圖譜的掩碼機制。區別于傳統VQA基于分類器的模型設定,我們采取基于空間映射的方法,建立多個特征空間并進行知識分解,同時提出了一種靈活的可作用于任何模型的k mask設定,緩解少樣本情況下對于Seen類數據的領域漂移。我們的方法提供了一種多模態數據和KG交互的新思路,實驗證明在多個模型上可取得穩定的提升,更好地結合外部知識同時緩解誤差傳播對于模型性能的影響。
二、數據集
由于長尾效應的存在,大多VQA數據存在答案不全/不均衡的特點(e.g. person、dog 等高頻答案的出現概率可能是towel、rail等低頻答案的數十乃至上百倍),這導致部分概念因為出現次數少而無法被很好地學習,甚至根本就沒有被學習(盡管真實場景下,其依然存在被問到的可能)。
我們考慮極端的情況——零樣本。即將原始數據根據答案類型,劃分為訓練/測試集的兩個分布。具體來說,我們首先將F-VQA數據集的訓練/測試集進行融合,然后統計出現概率TOP500的答案類型(answer class),按照Seen answer和Unseen answer隨機劃分為250 / 250的比例。此過程重復五次得到5個不同的子集以消除隨機劃分帶來的誤差影響。ZS-F-VQA劃分統計結果與F-VQA對比如下:
注意到,原始F-VQA是根據圖片進行數據劃分的,因此在image上的重疊(overlap)是0,而ZS-F-VQA在answer上重疊為0。
三、方法
方法包含兩部分。
第一部分,我們提出三個特征空間以處理不同分布的信息:實體空間(Object Space)、語義空間(Semantic Space)、知識空間(Knowledge Space)的概念。其中:
實體空間主要處理圖像/文本中存在的重點實體與知識庫中存在實例的對齊;
語義空間關注視覺/語言的交互模態中蘊含的語義信息,其目的是讓知識庫中對應關系的表示在獨立空間中進行特征逼近。
知識空間讓 (問題,圖像)組成的pair與答案直接對齊,建模的是間接知識,旨在挖掘多模態融合向量中存在的(潛層)知識。
第二部分是基于知識的答案掩碼。
掩碼技術技術廣泛應用于預訓練語言模型(PLM),其在訓練階段遮掩輸入的片段,以自監督的方式學習語法語義。與這種方式不同,我們在輸出階段進行答案遮掩:給定輸入圖像/文本信息得到融合向量后,基于第一部分獨立映射的特征空間和給定的超參數Ke / Kr,根據空間距離相似度在實體/語義空間中得到關于實體/關系的映射集,結合知識庫三元組信息匹配得到答案候選集。答案候選集作為掩碼的依據,在知識空間搜索得到的模糊答案的基礎上進行掩碼處理,最后進行答案排序。
此處的掩碼類型的分為兩種:硬掩碼(hard mask)和軟掩碼(soft mask),主要作用于答案的判定分數(score),區別在于遮掩分數的多少。其作用場景分別為零樣本場景和普通場景。零樣本背景下領域偏移問題嚴重,硬掩碼約束某種意義上對于答案命中效果的提升遠大于丟失正確答案所帶來的誤差。而普通場景下過高的約束則容易導致較多的信息丟失,收益小于損失。
具體實驗和討論見原文。
四、實驗
標準F-VQA上的實驗效果:
可以看到,取不同的超參k值,相比于其他baseline方法,最多可以取得( 6 ~ 9% )的穩定提升。而在零樣本設定中,ZS-F-VQA數據集下的實驗結果如圖所示:
模型所取得的提升是十分顯著( 30 ~ 40% )的。
同時,ZS-F-VQA數據下hard mask 取得最佳效果,F-VQA數據下soft mask在不同的掩碼分值取值(soft mask)下取得最佳效果,證明hard mask和soft mask的設定是有必要的。
最后,我們也對模型在兩個數據集上的結果進行了可解釋性分析。
五、總結
現有的模型默認訓練集與測試集具有獨立同分布的特質,但現實往往不盡如人意,也就是說同分布的假設大概率要打破。正如三位圖靈獎大佬最近發表的文章Deep Learning for AI [2]中所強調的核心概念——高層次認知。將現在已經學習的知識或技能重新組合,重構成為新的知識體系,隨之也重新構建出了一個新的假想世界(如在月球上開車),這種能力是人類天生就被賦予了的,在因果論中,被稱作“反事實”能力。現有的統計學習系統僅僅停留在因果關系之梯的第一層,即觀察,觀察特征與標簽之間的關聯,而無法做到更高層次的事情。
這也是我們研究的出發點:零樣本領域如何合理利用已有知識?我們普遍認為見過的就是事實,而未見過的就是事實以外的錯誤(反事實),這顯然過于絕對。零樣本某種意義上,就可看成是反事實的一種特例。
在未來,這其中顯然還有更多可以挖掘的可能。
歡迎大家關注我們近期的在零樣本學習領域的其他工作 [3-5]!
[1] Wang, P., Wu, Q., Shen, C., et al.: FVQA: fact-based visual question answering. TPAMI (2018)
[2] https://cacm.acm.org/magazines/2021/7/253464-deep-learning-for-ai/fulltext
[3] Geng Y, Chen J, Chen Z, et al. OntoZSL: Ontology-enhanced Zero-shot Learning. WWW 2021
[4] Chen J, Geng Y, Chen Z, et al. Knowledge-aware Zero-Shot Learning: Survey and Perspective[J]. IJCAI. 2021
[5] Geng Y, Chen J, Chen Z, et al. K-ZSL: Resources for Knowledge-driven Zero-shot Learning[J]. arXiv, 2021.
?
OpenKG
OpenKG(中文開放知識圖譜)旨在推動以中文為核心的知識圖譜數據的開放、互聯及眾包,并促進知識圖譜算法、工具及平臺的開源開放。
點擊閱讀原文,進入 OpenKG 網站。
總結
以上是生活随笔為你收集整理的论文浅尝 - ISWC2021 | 当知识图谱遇上零样本视觉问答的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 阿里P8架构师谈:Docker简介、组成
- 下一篇: 论文浅尝 | 面向多语言语义解析的神经网