2021.02.01 Visual QA论文阅读
目錄
- [2015][NIPS] Are You Talking to a Machine Dataset and Methods for Multilingual Image Question Answering
- [2015][NIPS] Exploring Models and Data for Image Question Answering
- [2016][AAAI] Learning to Answer Questions from Image Using Convolutional Neural Network
- [2016][CVPR] Answer-Type Prediction for Visual Question Answering
- [2016][CVPR] Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources
[2015][NIPS] Are You Talking to a Machine Dataset and Methods for Multilingual Image Question Answering
文章鏈接
本文提出了一個多語言的VQA數(shù)據(jù)集FM-IQA,包含中文(英文)問題和答案。本文方法現(xiàn)在看來很簡單,使用CNN提取圖像特征,使用LSTM提取問題特征,使用另一個LSTM編碼答案中的上下文,再將三個模塊的結(jié)果融合,生成最終答案。
本文構(gòu)造的數(shù)據(jù)集包含158392張圖片,316193個中文問題(英文問題個數(shù)一致)
實驗上,作者構(gòu)造了baseline模型——blindQA(在融合模塊上,不輸入image feature),實驗結(jié)果如下圖所示:
[2015][NIPS] Exploring Models and Data for Image Question Answering
文章鏈接
本文出自多倫多大學(xué)Mengye Ren,作者提出了一個端到端的QA模型,使用VGG19提取圖片特征后,將特征進行放射變換,作為question中的第一個單詞輸入LSTM,最后通過softmax得到答案。
作者提出了一個question generation方法,并基于此方法構(gòu)造了COCO-QA數(shù)據(jù)集。question generation方法共分為三步:① 使用斯坦福解析器對圖片進行解析;② 生成四類問題(Object、Number、Color和Location);③ 后處理:reject答案出現(xiàn)頻率過高(或過低)的QA pair。下表是數(shù)據(jù)分布:
實驗上,作者在DAQUAR和COCO-QA上做了實驗,并進行了可視化:
[2016][AAAI] Learning to Answer Questions from Image Using Convolutional Neural Network
文章鏈接
本文出自華為諾亞方舟實驗室。CNN已經(jīng)在多個任務(wù)中展露出不俗的表現(xiàn),但是還沒有被引用在VQA任務(wù)中,作者遂將CNN應(yīng)用在了VQA中。
本文方法共包含三個CNN部分,第一個CNN用于提取圖片特征,第二個CNN用于提取文本特征,第三個CNN用于提取多模態(tài)特征。值得一提的是,在第三個CNN中,輸入是[Vqti,Vim,Vqti+1][V_{qt}^{i}, V_{im}, V_{qt}^{i+1}][Vqti?,Vim?,Vqti+1?]。
實驗部分,本文在DAQUAR和COCO-QA上進行了實驗,結(jié)果如下:
[2016][CVPR] Answer-Type Prediction for Visual Question Answering
文章鏈接
本文的出發(fā)點在于,在很多時候,根據(jù)問題,即可以確定候選答案。如“這是一個紅色的馬嗎?”,答案只有可能是“是”或者“不是”,而不可能是“綠色”或者“30”。然而,現(xiàn)有的方法中沒有顯式的進行這種推理。
本文的貢獻共包括兩方面:① 第一個使用貝葉斯架構(gòu)預(yù)測答案類型,且準確率達到了99.7%。② 在VQA任務(wù)中使用skipthought vector[8],這是2015年在NIPS上提出的新方法,將句子編碼成向量的同時,可以保存顯著的句子信息。
作者對比了目前的4個VQA數(shù)據(jù)集,十分細致:
在沒有給定答案類別的數(shù)據(jù)集(如DAQUAR),作者規(guī)定了三種類別,分別是:Number、Color和Others。對于給定了答案類別的數(shù)據(jù)集,COCO-QA作者沒做處理,直接使用數(shù)據(jù)集提供的Object、Color、Counting和Location。COCO-VQA(也就是VQA v1.0),作者將Number類細分為了Counting和Other numbers,并添加了COCO objects和Activity兩個類別,前者對應(yīng)于答案是COCO數(shù)據(jù)集中的一種object,后者對應(yīng)于問題以playing和doing為結(jié)尾的QA pair。
對于給定的圖片的特征xxx、給定的問題的特征qqq,本文的目標是預(yù)測P(A=k∣x,q)=∑c∈TP(A=k,T=c∣x,q)P(A=k|x,q) = \sum_{c \in T}P(A=k, T=c|x,q)P(A=k∣x,q)=∑c∈T?P(A=k,T=c∣x,q)。其中,AAA是答案,TTT是答案類別。根據(jù)貝葉斯公式可得:
P(A=k,T=c∣x,q)=P(x∣A=k,T=c,q)P(A=k∣T=c,q)P(T=c∣q)P(x∣q)P(A=k, T=c|x,q) = \frac{P(x|A=k,T=c,q)P(A=k|T=c,q)P(T=c|q)}{P(x|q)}P(A=k,T=c∣x,q)=P(x∣q)P(x∣A=k,T=c,q)P(A=k∣T=c,q)P(T=c∣q)?
將上式中分子的三個部分分別用①②③表示。對于②和③,作者使用邏輯回歸分類器去建模;對于①,作者將其建模為下式的多元條件高斯:
P(x∣A=k,T=c,q)=N(x∣μ ̄k,c,q,Σ ̄k,c)P(x|A=k,T=c,q)=\mathcal{N}(x|\overline{\mu}_{k,c,q},\overline{\Sigma}_{k,c})P(x∣A=k,T=c,q)=N(x∣μ?k,c,q?,Σk,c?)
在四個數(shù)據(jù)集上的實驗結(jié)果:
[8] R. Kiros, Y. Zhu, R. Salakhutdinov, R. S. Zemel, A. Torralba, R. Urtasun, and S. Fidler. Skip-thought vectors. In NIPS, 2015. 2, 6
[2016][CVPR] Ask Me Anything: Free-form Visual Question Answering Based on Knowledge from External Sources
文章鏈接
本文出自阿德萊德大學(xué)吳琦老師,是第一篇提出使用外部知識庫進行VQA的文章。本文的動機很明顯,在VQA任務(wù)中,難免會出現(xiàn)一些涉及到常識的問題,此時單純的依靠數(shù)據(jù)集中給的Image、Question難以給出合適的回答。具體的例子如下圖所示:
本文的方法如下圖所示,先對圖片進行區(qū)域提取,提取特征后,使用SOTA caption方法生成描述,并基于檢測的topK屬性去外部知識庫中找到相關(guān)知識,將兩部分文本信息(caption結(jié)果、知識庫查詢結(jié)果)和視覺信息共同輸入LSTM。
本文的實驗結(jié)果非常好,在COCO-QA數(shù)據(jù)集上比SOTA高大概14個百分點。
在VQA數(shù)據(jù)集上也超過SOTA很多。
總結(jié)
以上是生活随笔為你收集整理的2021.02.01 Visual QA论文阅读的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2021.01.30 Visual QA
- 下一篇: 2021.02.02 Visual QA