生活随笔
收集整理的這篇文章主要介紹了
FVQA论文汇总
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
目錄
IJCAI2020 Mucko
- 題目
Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual Question Answering
下載鏈接
代碼鏈接
本文出自中科院自動(dòng)化所+微軟亞研+阿德萊德吳琦老師 - 動(dòng)機(jī)
在現(xiàn)有的FVQA方法中,沒(méi)有進(jìn)行細(xì)粒度的選擇,就將不同模態(tài)信息進(jìn)行聯(lián)合(共同嵌入),這為答案的推理帶來(lái)了干擾(噪聲)。 - 貢獻(xiàn)
使用異構(gòu)圖對(duì)圖片進(jìn)行描述,包含了三種不同的信息(視覺(jué)、語(yǔ)義、知識(shí)),取得了顯著超越SOTA方法的實(shí)驗(yàn)結(jié)果。使用“模態(tài)感知方法”捕獲不同模態(tài)中“面向question的信息”。此方法具有良好的可解釋性。
- 方法
本文方法的整體結(jié)構(gòu)如下圖所示,可以看出,有兩個(gè)核心步驟:構(gòu)造多模態(tài)異構(gòu)圖(Multi-Modal Heterogeneous Graph Construction)、跨模態(tài)異構(gòu)圖推理(Cross-Modal Heterogeneous Graph Reasoning)。其中,跨模態(tài)異構(gòu)圖推理又包含兩個(gè)步驟:知識(shí)選擇(Intra-Modal Knowledge Selection)、跨模態(tài)知識(shí)推理(Cross-Modal Knowledge Reasoning)。
首先介紹,如何構(gòu)造多模態(tài)異構(gòu)圖,這部分最終得到了三種不同模態(tài)的圖,分別是視覺(jué)圖、事實(shí)圖和語(yǔ)義圖。視覺(jué)圖基于所有的regions進(jìn)行構(gòu)造,得到的是雙向完全圖,每個(gè)節(jié)點(diǎn)的特征即為 region的視覺(jué)特征,邊的特征為兩個(gè)節(jié)點(diǎn)的spatial feature的結(jié)合ri,jV=[xj?xiwi,yj?yihi,wjwi,hjhi,wjhjwihi]r_{i,j}^V=[\frac{x_j-x_i}{w_i},\frac{y_j-y_i}{h_i},\frac{w_j}{w_i},\frac{h_j}{h_i},\frac{w_j h_j}{w_i h_i}]ri,jV?=[wi?xj??xi??,hi?yj??yi??,wi?wj??,hi?hj??,wi?hi?wj?hj??]。語(yǔ)義圖部分使用dense caption生成局部語(yǔ)義信息,將object或attribute作為節(jié)點(diǎn),關(guān)系作為邊,word embedding方法使用的是GloVe。事實(shí)圖部分,先使用一個(gè)基于分?jǐn)?shù)排序的方法,選出100個(gè)候選事實(shí),具體做法為:計(jì)算“事實(shí)”中的每個(gè)單詞的embedding和question中每個(gè)單詞embedding、檢測(cè)到的視覺(jué)概念中的每個(gè)單詞embedding的余弦相似度,再進(jìn)行平均,得到每個(gè)“事實(shí)”的分?jǐn)?shù)。對(duì)于得到的100個(gè)候選事實(shí),還要進(jìn)行篩選,規(guī)則是——基于MLP預(yù)測(cè)question的relation類型,取top3,依次將100個(gè)候選事實(shí)和top3進(jìn)行對(duì)比,不一致則刪除。最后,基于篩選得到的事實(shí)建圖。
跨模態(tài)異構(gòu)圖推理由迭代的兩部分(知識(shí)選擇、跨模態(tài)知識(shí)推理)組成,共重復(fù)TTT次。知識(shí)選擇就是在每個(gè)圖上,基于question分別對(duì)節(jié)點(diǎn)和邊添加attention,然后使用圖卷積進(jìn)行節(jié)點(diǎn)更新。跨模態(tài)知識(shí)推理先基于事實(shí)圖中的每個(gè)實(shí)體(entity)+question對(duì)視覺(jué)圖和語(yǔ)義圖的節(jié)點(diǎn)添加注意力,再基于此注意力計(jì)算出互補(bǔ)信息(計(jì)算過(guò)程就是注意力和節(jié)點(diǎn)特征的加權(quán)平均)。分別得到視覺(jué)圖和語(yǔ)義圖的互補(bǔ)信息后,使用一個(gè)門機(jī)制將它們和事實(shí)圖的節(jié)點(diǎn)信息融合。最后,使用和知識(shí)選擇部分一樣的操作,對(duì)事實(shí)圖中的信息進(jìn)行Aggregation。 - 實(shí)驗(yàn)
本文在三個(gè)knowledge-based VQA數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),分別是FVQA、OK-VQA和Visual7W+KB。
在FVQA數(shù)據(jù)集上,和SOTA方法的對(duì)比,在top1上已經(jīng)要接近人類水平了。
在Visual7W+KB數(shù)據(jù)集上的實(shí)驗(yàn):
在OK-VQA數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果:
在FVQA上的消融實(shí)驗(yàn):
在FVQA上的超參實(shí)驗(yàn):
可視化的實(shí)驗(yàn)結(jié)果:
與50位技術(shù)專家面對(duì)面20年技術(shù)見證,附贈(zèng)技術(shù)全景圖
總結(jié)
以上是生活随笔為你收集整理的FVQA论文汇总的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò),歡迎將生活随笔推薦給好友。