论文小综 | Using External Knowledge on VQA
本文轉(zhuǎn)載自公眾號(hào):浙大KG。
本文作者:陳卓,浙江大學(xué)在讀博士,主要研究方向?yàn)閳D神經(jīng)網(wǎng)絡(luò)和知識(shí)圖譜表示學(xué)習(xí)
我們生活在一個(gè)多模態(tài)的世界中。視覺(jué)的捕捉與理解,知識(shí)的學(xué)習(xí)與感知,語(yǔ)言的交流與表達(dá),諸多方面的信息促進(jìn)著我們對(duì)于世界的認(rèn)知。作為多模態(tài)領(lǐng)域一個(gè)典型的場(chǎng)景,VQA(視覺(jué)問(wèn)答)顧名思義,也就是結(jié)合視覺(jué)的信息來(lái)回答所提出的問(wèn)題。其于15年首次被提出[1],涉及的方法從最開(kāi)始的聯(lián)合編碼,到雙線性融合,注意力機(jī)制,組合模型,場(chǎng)景圖,再到引入外部知識(shí),進(jìn)行知識(shí)推理,以及使用圖網(wǎng)絡(luò),近年來(lái)取得了長(zhǎng)足發(fā)展。
傳統(tǒng)的VQA僅憑借視覺(jué)與語(yǔ)言信息的組合來(lái)回答問(wèn)題,而近年來(lái)許多研究者開(kāi)始探索外部信息對(duì)于解決VQA任務(wù)的重要性。
如上圖所示,這里的VQA pair中,要回答問(wèn)題“地面上的紅色物體能用來(lái)做什么”,要想做出正確的回答“滅火”,所依靠的信息不僅來(lái)源于圖片上所識(shí)別出的“消防栓”,還必須考慮到來(lái)自外部的事實(shí)(知識(shí))“消防栓能滅火”作為支撐。這就是一個(gè)典型的VQA上應(yīng)用外部知識(shí)的場(chǎng)景。
接下來(lái)我將按時(shí)間順序結(jié)合5篇論文簡(jiǎn)述在VQA上應(yīng)用外部知識(shí)的方法,做相應(yīng)的梳理。
Ask Me Anything: Free-Form Visual Question Answering Based on Knowledge From External?Sources
發(fā)表會(huì)議:CVPR 2016
論文鏈接:https://www.cv-foundation.org/openaccess/content_cvpr_2016/html/Wu_Ask_Me_Anything_CVPR_2016_paper.html
推理與知識(shí)的實(shí)際存儲(chǔ)進(jìn)行分離是基于外部知識(shí)VQA相關(guān)論文所持的觀點(diǎn)。該論文核心思想是將自動(dòng)生成的圖像描述與外部的Knowledge bases融合,以實(shí)現(xiàn)對(duì)問(wèn)題的預(yù)測(cè)。其中生成圖像描述的方法借鑒了同年作者發(fā)表的了一篇文章[5]:給定一張圖像,先預(yù)測(cè)圖像中各種屬性,然后再將這些屬性代替之前的 CNN 圖像特征,輸入到 RNN 當(dāng)中生成語(yǔ)句。這個(gè)簡(jiǎn)單的操作使他們的圖像標(biāo)注模型在當(dāng)年 COCO圖像標(biāo)注大賽上排名第一。添加中介屬性減小雙模態(tài)鴻溝的方法,也用在了本文中。
對(duì)于一個(gè)給定的V-Q pair,首先用CNN提取圖片特征屬性,然后利用這些檢測(cè)到的屬性,使用sparql查詢語(yǔ)句從knowledge base比如DBpedia中提取出圖像相關(guān)描述的一個(gè)段落,利用Doc2Vec對(duì)這些段落編碼。同時(shí),根據(jù)圖片特征屬性使用Sota的image caption方法形成圖像對(duì)應(yīng)的段落特征表達(dá)。
最后將上面兩種信息以及編碼的屬性結(jié)合在一起并輸入作為一個(gè)Seq2Seq模型的初始初始狀態(tài),同時(shí)將問(wèn)題編碼作為L(zhǎng)STM的輸入,利用最大似然方法處理代價(jià)函數(shù),預(yù)測(cè)答案。
該方法的可解釋性相對(duì)于端到端的模型而言強(qiáng)了許多,這也是后續(xù)許多模型采用的思想,即各種特征融合到一起然后丟到一個(gè)遞歸網(wǎng)絡(luò)例如LSTM中。最后在COCO-QA數(shù)據(jù)集上取得了Sota效果。
FVQA: Fact-Based Visual Question Answering
發(fā)表會(huì)議:TPAMI 2018
論文鏈接:https://ieeexplore.ieee.org/abstract/document/8046084
既然knowledge 和 reasoning 對(duì) VQA 都很重要,那么就可以考慮將它們兩個(gè)結(jié)合在一起,進(jìn)行顯示推理。和以往直接把圖像加問(wèn)題直接映射到答案不同,作者提出的Ahab[3]模型的答案是可追溯的,就是通過(guò)查詢語(yǔ)句在KG中的搜索路徑可以得到一個(gè)顯式的邏輯鏈。這也是一種全新的能夠進(jìn)行顯式推理的 VQA 模型。并且,他們提出了一種涉及外部知識(shí)的VQA任務(wù)。它首先會(huì)通過(guò)解析將問(wèn)題映射到一個(gè) KB 查詢語(yǔ)句從而能夠接入到已有知識(shí)庫(kù)中。同時(shí)將提取的視覺(jué)概念(左側(cè))的圖鏈接到DBpedia(右側(cè))里面,如下圖所示。
同期發(fā)表的FVQA是對(duì)其的改進(jìn)和梳理,并且貢獻(xiàn)了這方面很重要的數(shù)據(jù)集:除了一般的圖片、問(wèn)題、回答以外,這個(gè)數(shù)據(jù)集還提供了支撐這一回答的事實(shí)Facts事實(shí)集合(參考數(shù)據(jù)來(lái)源于DBpedia, Conceptnet, WebChild三個(gè)數(shù)據(jù)庫(kù)),共包括4216個(gè)fact。某種意義上來(lái)說(shuō),該數(shù)據(jù)集是基于fact去針對(duì)性構(gòu)建的。具體如下:
在實(shí)際的數(shù)據(jù)中,fact以關(guān)系三元組的形式表示,其中的relationship使用來(lái)自于數(shù)據(jù)庫(kù)中已有的定義。
模型的第一部分和ahab類似,檢測(cè)圖像中的視覺(jué)概念,然后將他們與知識(shí)庫(kù)對(duì)齊并連接到subgraph中。第二步將自然語(yǔ)言式的問(wèn)題映射到一個(gè)查詢類型,然后相應(yīng)地確定關(guān)鍵的關(guān)系類型,視覺(jué)概念和答案源。再根據(jù)上面的信息構(gòu)建一個(gè)特殊的查詢會(huì)去請(qǐng)求上一步當(dāng)中建立好的圖,找到所有滿足條件的事實(shí)。最后通過(guò)關(guān)鍵詞篩選得到對(duì)應(yīng)問(wèn)題的答案。
OK-VQA: A Visual?Question Answering Benchmark Requiring External Knowledge
發(fā)表會(huì)議:CVPR 2019
論文鏈接:https://openaccess.thecvf.com/content_CVPR_2019/html/Marino_OK-VQA_A_Visual_Question_Answering_Benchmark_Requiring_External_Knowledge_CVPR_2019_paper.html
該文章[6]的問(wèn)題背景是,對(duì)于已有的小部分需要外部知識(shí)的數(shù)據(jù)集,依賴于結(jié)構(gòu)化知識(shí)(例如上文提到的FVQA)。而已有的VQA數(shù)據(jù)集,問(wèn)題難度普遍不高,標(biāo)準(zhǔn)VQA數(shù)據(jù)集,超過(guò)78%的問(wèn)題能夠被十歲以下兒童回答。
于是,作者提出并構(gòu)建了一個(gè)(最)大規(guī)模的需要外部知識(shí)的數(shù)據(jù)集( Outside Knowledge VQA ),并且在OK-VQA數(shù)據(jù)集上就目前最好的VQA模型提供了benchmark實(shí)驗(yàn)。與此同時(shí),提出了一種ArticleNet的方法,可以處理互聯(lián)網(wǎng)上的非結(jié)構(gòu)化數(shù)據(jù)來(lái)輔助回答其中的問(wèn)題。
數(shù)據(jù)集大小和對(duì)比如下:
因?yàn)闃?biāo)準(zhǔn)VQA數(shù)據(jù)集質(zhì)量不高(難度低),所以作者自行請(qǐng)MTurk工人,從COCO數(shù)據(jù)集中進(jìn)行了數(shù)據(jù)采集、問(wèn)題搜集、問(wèn)題質(zhì)量篩選、問(wèn)題回答。同時(shí)通過(guò)過(guò)濾操作,降低了bias的影響,減少文本對(duì)于某些回答的偏差(如 Is there ...)。同時(shí)考慮了長(zhǎng)尾效應(yīng)。就數(shù)據(jù)分類而言,劃分了10+1(other)個(gè)類別,保證問(wèn)題類型的互斥。
圖片場(chǎng)景覆蓋了COCO總共的365個(gè)場(chǎng)景中的350.。保證了覆蓋率和分布的合理性。
就ArticleNet模型而言,其分為三步:(1)從圖片(pre-trained+ scene classi?ers)和問(wèn)題pair中搜集關(guān)鍵字,并組合成可能的query (2)使用wiki的API進(jìn)行檢索,獲得排名最高的幾個(gè)文章。(3)基于query 的單詞在這幾篇文章中得到最有可能的句子。(4)【可選】從句子中得到最有可能的詞作為答案。
ArticleNet模型可以與許多已有的VQA模型進(jìn)行拼接以提升模型在外部知識(shí)VQA場(chǎng)景下性能。作者進(jìn)行了相應(yīng)實(shí)驗(yàn):
其中ArticleNet的結(jié)合方法是將sentence與具體模型中某一層的輸出向量進(jìn)行一個(gè)向量拼接,以捕獲外部信息。ArticleNet單獨(dú)作用的方法可能一般(依賴于互聯(lián)網(wǎng)數(shù)據(jù),比較死板),但是如何和其他模型結(jié)合e.g. mutan、ban(end-2-end),效果都會(huì)有提升。同時(shí)其并不是和VQA模型一起訓(xùn)練,可以單獨(dú)訓(xùn)練。如下是ArticleNet在其中起作用的例子:
Out of the Box: Reasoning with Graph Convolution Nets for Factual Visual Question Answering
發(fā)表會(huì)議:NeurIPS 2020
論文鏈接:http://papers.nips.cc/paper/7531-out-of-the-box-reasoning-with-graph-convolution-nets-for-factual-visual-question-answering
前文提出的方法大多類似于組合模型。此外,近幾年也有涉及到圖來(lái)解決外部知識(shí)VQA問(wèn)題的方法[7]。
該文章的作者基于FVQA數(shù)據(jù)集,把之前深度網(wǎng)絡(luò)篩選事實(shí)的這一訓(xùn)練過(guò)程用圖卷積網(wǎng)絡(luò)代替,成為一個(gè)端到端的推理系統(tǒng),用于具有知識(shí)庫(kù)的視覺(jué)問(wèn)題解答。
一共分為七個(gè)步驟,給定圖像和問(wèn)題,首先使用相似性評(píng)分技術(shù)根據(jù)圖像和問(wèn)題從事實(shí)空間獲得相關(guān)事實(shí)。使用LSTM模型從問(wèn)題預(yù)測(cè)關(guān)系,篩選fact來(lái)進(jìn)一步減少相關(guān)事實(shí)及其實(shí)體的集合。然后分別進(jìn)行圖像視覺(jué)概念提取,問(wèn)題的LSTM嵌入,以及事實(shí)詞組的的LSTM嵌入,將圖像的視覺(jué)概念multi-hot向量和問(wèn)題的lstm嵌入向量組合,并與每一個(gè)實(shí)體的LSTM嵌入拼接,作為一個(gè)實(shí)體的特征表示,同時(shí)也是作為GCN模型里圖上的一個(gè)節(jié)點(diǎn)。圖中的邊代表實(shí)體之間的關(guān)系。最后將GCN輸出的每一個(gè)實(shí)體節(jié)點(diǎn)特征向量作為多層感知機(jī)二元分類模型的輸入,最后輸出的結(jié)果通過(guò)argmax得到最終的決策結(jié)果。
模型在雙層GCN以及top3 relation的設(shè)定下,超過(guò)了FVQA的方法大概10%。(58.7%->69.3),結(jié)果如下:
Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual Question Answering
發(fā)表會(huì)議:IJCAI 2020
論文鏈接:https://arxiv.org/pdf/2006.09073
作者對(duì)比了前人的工作,一個(gè)方向是將問(wèn)題轉(zhuǎn)化成關(guān)鍵詞,然后在候選事實(shí)中根據(jù)關(guān)鍵詞匹配檢索出對(duì)應(yīng)的支撐事實(shí)的pineline方式,比如前文所提的FVQA,但是如果視覺(jué)概念沒(méi)有被問(wèn)題完全提及(比如同義詞和同形異義詞)或者事實(shí)圖中未捕獲提及的信息(比如它問(wèn)紅色的柱子是什么,卻沒(méi)有提到消防栓),那這類方法就會(huì)因?yàn)槠ヅ涠a(chǎn)生誤差。另一個(gè)方向?qū)⒁曈X(jué)信息引入到知識(shí)圖中,通過(guò)GCN推導(dǎo)出答案,就比如前文提到的out of the box模型。雖然解決了上面的問(wèn)題但是每個(gè)節(jié)點(diǎn)都引入了相同且全部的視覺(jué)信息,而只有一部分的視覺(jué)信息和當(dāng)前節(jié)點(diǎn)是相關(guān)的,這樣會(huì)引入噪聲。并且每個(gè)節(jié)點(diǎn)都是固定形式的的視覺(jué)-問(wèn)題-實(shí)體的嵌入表示,這使得模型無(wú)法靈活地從不同模態(tài)中捕獲線索。而本文[8]則較好地解決了上述問(wèn)題。
文章的出發(fā)點(diǎn)是將圖像表示成一個(gè)多模態(tài)的異構(gòu)圖,其中包含來(lái)自不同模態(tài)三個(gè)層次的信息(分別是視覺(jué)圖、語(yǔ)義圖和事實(shí)圖),來(lái)互相補(bǔ)充和增強(qiáng)VQA任務(wù)的信息。具體來(lái)說(shuō),視覺(jué)圖包含了圖像中的物體及其位置關(guān)系的表示,語(yǔ)義圖包含了用于銜接視覺(jué)和知識(shí)的高層語(yǔ)義信息,事實(shí)圖則包含圖像對(duì)應(yīng)的外部知識(shí),它的構(gòu)造思想?yún)⒖剂薿ut of the box 模型。
然后進(jìn)行每個(gè)模態(tài)內(nèi)的知識(shí)選擇:在問(wèn)題的引導(dǎo)下確定每個(gè)節(jié)點(diǎn)和邊在內(nèi)部圖卷積過(guò)程中的分?jǐn)?shù)權(quán)重占比,然后進(jìn)行常規(guī)的update操作。也就是說(shuō)在跨模態(tài)之前,先獨(dú)立選擇單個(gè)模態(tài)內(nèi)有價(jià)值的證據(jù),讓和問(wèn)題相關(guān)性強(qiáng)的節(jié)點(diǎn)及邊,在圖內(nèi)部卷積過(guò)程中占更大的權(quán)重。這三個(gè)模態(tài)內(nèi)部的卷積操作都是相同的,只是節(jié)點(diǎn)和邊的表示不同。
最后,跨模態(tài)的知識(shí)推理是基于part2模態(tài)內(nèi)的知識(shí)選擇的結(jié)果。考慮到信息的模糊性,不同圖很難顯式地對(duì)齊,所以作者采用一種隱式的基于注意力機(jī)制的異構(gòu)圖卷積網(wǎng)絡(luò)方法來(lái)關(guān)聯(lián)不同模態(tài)的信息,從不同層的圖中自適應(yīng)地收集互補(bǔ)線索并進(jìn)行匯聚。包括視覺(jué)到事實(shí)的卷積和語(yǔ)義到事實(shí)的卷積。比如視覺(jué)到事實(shí)的卷積場(chǎng)景中,對(duì)于事實(shí)圖中的每個(gè)節(jié)點(diǎn)vi,計(jì)算視覺(jué)圖中每個(gè)節(jié)點(diǎn)vj和它在問(wèn)題引導(dǎo)下的相似度注意力分?jǐn)?shù),越互補(bǔ)的節(jié)點(diǎn)它的相似度分?jǐn)?shù)就越高,然后根據(jù)這個(gè)分?jǐn)?shù)對(duì)視覺(jué)圖加權(quán)求和,得到事實(shí)圖中每個(gè)節(jié)點(diǎn)來(lái)自視覺(jué)圖層的事實(shí)互補(bǔ)信息。
分別迭代地執(zhí)行Part2模態(tài)內(nèi)的知識(shí)選擇和Part3跨模態(tài)的知識(shí)推理,執(zhí)行多個(gè)step可以獲得最終的fact實(shí)體表示,并將其傳到一個(gè)二元分類器,輸出概率最高的實(shí)體當(dāng)做預(yù)測(cè)的答案。?
模型在三個(gè)數(shù)據(jù)集上驗(yàn)證了實(shí)驗(yàn)結(jié)果。該模型在FVQA上表現(xiàn)很好:
另外一個(gè)數(shù)據(jù)集Visual7W KB也和FVQA類似,問(wèn)題是直接根據(jù)Conceptnet生成的。不同點(diǎn)在于他不提供fact。可以看到結(jié)果也明顯好于Sota。
第三個(gè)數(shù)據(jù)集OK-VQA比較特殊,沒(méi)有知識(shí)庫(kù)作為參考,知識(shí)跨度大難度高,sota只有30%不到。該模型在其上表現(xiàn)的不太好,不過(guò)還是比Sota要高大概0.7%。原因猜測(cè)是光憑借單一的外部知識(shí)庫(kù)可能不足以對(duì)ok-vqa達(dá)到較大提升,所以ok-vqa問(wèn)題在未來(lái)實(shí)際上還有很大的提升空間。
該模型另外一個(gè)優(yōu)點(diǎn)是結(jié)果具有比較好的解釋性。上圖是FVQA數(shù)據(jù)下測(cè)試的結(jié)果。把fact graph中最重要fact所對(duì)應(yīng)的top2視覺(jué)和語(yǔ)義對(duì)象節(jié)點(diǎn),用虛線連接,虛線上的值表示了跨模態(tài)卷積中不同層哪些節(jié)點(diǎn)對(duì)結(jié)果影響重要性更大,結(jié)果比較直觀。熱力條根據(jù)最后特征融合時(shí)的gate值得到,密度越大則代表對(duì)應(yīng)位置通道的重要性越高。可以發(fā)現(xiàn),在大多數(shù)的情況下事實(shí)信息會(huì)更重要,也就是密度最大。因?yàn)镕VQA中97.3%的問(wèn)題都是需要額外知識(shí)才能回答的。而密度第二大的區(qū)域往往會(huì)由問(wèn)題的類型決定是視覺(jué)更重要還是問(wèn)題更重要。比如第二個(gè)圖中問(wèn)題里面的hold by這個(gè)詞無(wú)法在圖片中具體體現(xiàn),所以所以語(yǔ)義信息的占比會(huì)更大一些。而第一個(gè)圖的話則視覺(jué)信息占比更大。
總而言之,形形色色的方法各有千秋。在實(shí)際應(yīng)用中,可以根據(jù)不同方法的優(yōu)劣和實(shí)際場(chǎng)景的條件選擇合適的VQA模型。目前來(lái)說(shuō)解決VQA問(wèn)題主要方向主要是三個(gè)大方向(改善模型對(duì)于文本與圖像的表達(dá)能力,可解釋性與視覺(jué)推理,外部知識(shí)),其中KG而言在這三個(gè)方向中都有涉及。起到的作用分別對(duì)應(yīng)于:用圖網(wǎng)絡(luò)來(lái)捕捉信息聯(lián)系,通過(guò)三元組來(lái)提供與描述事實(shí)并進(jìn)行解釋與答案追溯,以及引入外部語(yǔ)料庫(kù),組織實(shí)體關(guān)系和spaql查詢語(yǔ)句。
當(dāng)然,未來(lái)還有許多潛在的方法和應(yīng)用等待挖掘,歡迎大家補(bǔ)充和交流。
?
參考文獻(xiàn)
[1] Stanislaw Antol, Aishwarya Agrawal, et al. VQA: Visual Question Answering. ICCV 2015: 2425-2433
[2] Wu Q, et al. Ask me anything: Free-form visual question answering based on knowledge from external sources. CVPR. 2016
[3]?Wang P, Wu Q, Shen C, et al.Explicit Knowledge-based Reasoning for Visual Question Answering. IJCAI 2017: 1290-1296
[4] Wang P, Wu Q, Shen C, et al.FVQA: Fact-Based Visual Question Answering. IEEE Trans. Pattern Anal. Mach. Intell. 40(10): 2413-2427 (2018)
[5]?Wu Q, Shen C, Liu L, et al. What value do explicit high level concepts have in vision to language problems? . CVPR. 2016
[6]?Marino K, Rastegari M, Farhadi A, et al. OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge. CVPR 2019: 3195-3204
[7]?Narasimhan M, Lazebnik S, Schwing A. Out of the box: Reasoning with graph convolution nets for factual visual question answering. NIPS. 2018
[8]?Zhu Z, Yu J, Wang Y, et al.Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual Question Answering. IJCAI. 2020
? ?
浙江大學(xué)知識(shí)引擎實(shí)驗(yàn)室
?
?
OpenKG
開(kāi)放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文小综 | Using External Knowledge on VQA的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 论文浅尝 | 一种嵌入效率极高的 nod
- 下一篇: 论文浅尝 | 通过文本到文本神经问题生成