2021.02.05 Visual QA论文阅读
目錄
- [2016][ECCV] Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering
- [2016][ECCV] Learning Models for Actions and Person-Object Interactions with Transfer to Question Answering
[2016][ECCV] Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering
文章鏈接
本文的motivation和同期的論文都差不多,就是existing methods直接套用image captioning任務的方法(LSTM、RNNs,基于global feature),這樣的方法沒有spatial inference的能力,不能顯式的進行目標定位。本文從這個角度出發,作者認為,進行QA需要模型根據question關注到圖片的一部分,遂提出了Question-Guided Spatial Attention。
在方法上 ,作者提出了一個基于question指導的image上的spatial attention,并通過重復attention部分,實現deeper inference。
作者探索了hop次數對實驗結果的影響,2hop比1hop的效果好很多,但是3hop就幾乎沒有提升了。在實驗結果上,2hop雖說超過了SOTA,但是和同期的論文比,不算最高的。下面兩張圖片分別是DAQUAR和VQA數據集上的實驗結果。
下面是對spatial attention的可視化,作者對比了one-hop model和two-hop model的spatial attention。下圖中,每個QA pair后面的三張attention map分別是:one-hop model’s attention、two-hop model’s attention in hop1、two-hop model’s attention in hop2.
[2016][ECCV] Learning Models for Actions and Person-Object Interactions with Transfer to Question Answering
文章鏈接
本文的motivation和同期論文有點不同,本文只關注與兩類question:① person activity;② person-object relationship。作者通過遷移學習,把在HICO(activity classification dataset)和MPII(human pose dataset)上訓練得到的模型,transfer到VQA任務上。
本文是一個region based方法,基于Fast RCNN提取ROIs。然后對于image III和ROI set BBB,計算action score score(a;I)=maxb∈Bscore(a;b,I)score(a; I) = \text{max}_{b \in B} score(a; b, I)score(a;I)=maxb∈B?score(a;b,I)。將得到的score輸入到logistic sigmoid或softmax即可得到action預測,這一部分作者稱為多實例學習(Multiple Instance Learning)。本文另一contribution是使用了weighted loss,其實就是給正負樣本的loss加上了人為權重,正樣本權重是10,負樣本權重是1.
作者只在Visual Madlibs的兩類數據上做了實驗:
總結
以上是生活随笔為你收集整理的2021.02.05 Visual QA论文阅读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2021.02.04 Visual QA
- 下一篇: 2021.02.18 Visual QA