2021.02.04 Visual QA论文阅读
目錄
- [2016][CVPR] Where To Look: Focus Regions for Visual Question Answering
- [2016][CVPR] Yin and Yang: Balancing and Answering Binary Visual Questions
[2016][CVPR] Where To Look: Focus Regions for Visual Question Answering
文章鏈接
本文的motivation很明確——knowing where to look。
方法上,本文只針對多項選擇式VQA。首先,得到region features viv_ivi?和text feature qqq,先經過gi=(Avi+bA)T(Bq+bB)g_i = (Av_i+b^A)^T(Bq+b^B)gi?=(Avi?+bA)T(Bq+bB)和softmax(g)\text{softmax}(g)softmax(g)得到region weight sis_isi?,然后將region features viv_ivi?和text feature qqq連接,得到di=[vi,q]d_i = [v_i, q]di?=[vi?,q],最后經過z=∑i(Wdi,+bW)siz = \sum_{i}(Wd_i,+b^W)s_iz=∑i?(Wdi?,+bW)si?得到weighted average feature zzz,用于后續的分類和分數預測。
下面是在VQA數據集上的實驗結果,和一些可視化的實驗結果。
[2016][CVPR] Yin and Yang: Balancing and Answering Binary Visual Questions
文章鏈接
本文題目中提到陰陽,其實就是想說balance。。。作者先是從language prior的角度出發,說語言信息能夠對VQA任務提供先驗信息,如:對于question “Is the xxx yyy zzz?”,答案一定是yes or no。本文正是針對這類VQA問題(回答是yes or no的QA pair),作者對VQA數據集進行了balance,然后提出了一種基于visual verification的binary VQA方法。
關于作者如何balance數據集,這里就不多提了,下面簡單介紹一下本文的方法。由于作者只針對binary VQA,本文的模型分為兩個組成部分:① 語言解析(Language Parsing);② 視覺驗證(Visual Verification)。在語言解析部分,作者使用斯坦福解析器對question進行解析,然后做一些“剪枝”操作(去除some、the等stop words,去除is、do等輔助動詞),得到question的summary。如:Is the woman on couch petting the dog? → woman on couch petting dog. 然后,作者提取PRS三元組<woman on couch, petting, dog>,這部分作者使用了[17]中的方法。得到三元組后,需要將其中的P和S對應到圖片中,這部分作者參考[39]中的方法,將圖片中和單詞(如:dog)互信息最高的部分作為referent。完成alignment后,需要進行視覺驗證。視覺驗證部分訓練了兩個模型,分別是Q-model和Tuple-model。Q-model使用image feature和question global feature(使用LSTM得到)作為輸入,做一個point-wise multiplication,得到多模態表示,經過fc層得到yes or no的輸出。Tuple-model使用image feature(和Q-model一樣)和PRS words feature(使用word2vec得到,進行concatenation)作為輸入,和Q-model做一樣的后續操作。得到的兩份yes or no,經過乘法(我理解的是,都為yes才是yes)得到最終答案。注意: image feature是aligned PS image feature。
實驗結果分為兩部分,unbalanced VQA和balanced VQA。
可視化實驗結果:
[17] P. Halcsy, A. Kornai, and C. Oravecz. Hunpos - an open source trigram tagger. In ACL, 2007. 5
[39] C. L. Zitnick, D. Parikh, and L. Vanderwende. Learning the Visual Interpretation of Sentences. In ICCV, 2013. 2, 3, 5
總結
以上是生活随笔為你收集整理的2021.02.04 Visual QA论文阅读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2021.02.03 Visual QA
- 下一篇: 2021.02.05 Visual QA