Visual Question Answering概述
目錄
- 任務(wù)描述
- 應(yīng)用領(lǐng)域
- 主要問題
- 主流框架
- 常用數(shù)據(jù)集
- Metrics
部分?jǐn)?shù)據(jù)集介紹摘自這篇博客
任務(wù)描述
- 輸入:圖片III、由nnn個(gè)單詞組成的問題Q={q1,...,qn}Q=\{ q_1,...,q_n \}Q={q1?,...,qn?}
- 輸出:由mmm個(gè)單詞組成的問題的答案A={a1,...,am}A=\{ a_1,...,a_m \}A={a1?,...,am?}
應(yīng)用領(lǐng)域
- 盲人導(dǎo)航
- 圖靈測(cè)試
主要問題
-
魯棒性差
模型的魯棒性差可多個(gè)方面體現(xiàn),如缺乏可解釋性、回答不一致等。造成這個(gè)問題的原因也是多方面的,如訓(xùn)練集和測(cè)試集的分布不同、語言先驗(yàn)等。所以魯棒性差算是一個(gè)比較籠統(tǒng)、大范圍的概念。
已有方法:反事實(shí)、遷移學(xué)習(xí)、場(chǎng)景圖等(太多方法可以提高模型的魯棒性了)
參考文獻(xiàn):[1] CVPR 2020 Towards Causal VQA Revealing and Reducing Spurious Correlations by Invariant and Covariant Semantic Editing -
可解釋性
已有方法:關(guān)系推理、場(chǎng)景圖
參考文獻(xiàn):[1] CVPR 2019 Explainable and Explicit Visual Reasoning over Scene Graphs
? ? ? ? ? ? ? ? ?[2] ICCV 2019 Language-Conditioned Graph Networks for Relational Reasoning -
回答一致性
已有方法:新數(shù)據(jù)集VQA-Rephrasings、SQuINTing
參考文獻(xiàn):[1] CVPR2019 Cycle-Consistency for Robust Visual Question Answering
? ? ? ? ? ? ? ? ?[2] CVPR 2020 SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions -
訓(xùn)練集和測(cè)試集分布不一致(衍生問題:出現(xiàn)out-of-vocabulary answer)
已有方法:使用Self-Critical Reasoning提高influential objects的sensitivity、遷移學(xué)習(xí)、反事實(shí)
參考文獻(xiàn):[1] CVPR 2019 Self-Critical Reasoning for Robust Visual Question Answering
? ? ? ? ? ? ? ? ?[2] CVPR 2019 Transfer Learning via Unsupervised Task Discovery
? ? ? ? ? ? ? ? ?[3] CVPR 2020 Counterfactual Samples Synthesizing for Robust Visual Question Answering -
語言先驗(yàn)
已有方法:問題分解
參考文獻(xiàn):[1] AAAI 2020 Overcoming Language Priors in VQA via Decomposed Linguistic Representations
? ? ? ? ? ? ? ? ?[2] CVPR 2018 Dont just assume; look and answer: Overcoming priors for visual question answering -
跨模態(tài)交互(新視角)
已有方法:轉(zhuǎn)化為機(jī)器閱讀理解任務(wù)、提取不同模態(tài)信息的summarizations
參考文獻(xiàn):[1] CVPR 2019 Visual Question Answering as Reading Comprehension
? ? ? ? ? ? ? ? ?[2] ICCV 2019 Multi-modality Latent Interaction Network for Visual Question Answering -
domain拓展性
已有方法:No Questions-Answers Training(使用問題圖生成問題,構(gòu)造無意義的答案)
參考文獻(xiàn):[1] CVPR 2020 VQA with No Questions-Answers Training -
組合泛化
已有方法:NMNs、neural factor graphs
參考文獻(xiàn):[1] NeurlPS 2020 Multimodal Graph Networks for Compositional Generalization in Visual Question Answering
? ? ? ? ? ? ? ? ?[2] CVPR 2016 Neural Module Networks
主流框架
①. 使用faster rcnn提取圖片中的regions
②. 使用LSTM/Transformer對(duì)question進(jìn)行encode
③. 跨模態(tài)交互,得到answer
常用數(shù)據(jù)集
- CLEVR,合成數(shù)據(jù)集,是由一些簡(jiǎn)單的幾何形狀構(gòu)成的視覺場(chǎng)景。數(shù)據(jù)集中的問題總是需要一長(zhǎng)串的推理過程,為了對(duì)推理能力進(jìn)行詳細(xì)評(píng)估,所有問題分為了5類:屬性查詢(querying attribute),屬性比較(comparing attributes),存在性(existence),計(jì)數(shù)(counting),整數(shù)比較(integer comparison)。
下載鏈接
論文原文 - VQA v1,人工標(biāo)注的開放式問答數(shù)據(jù)集,但是VQAv1有很多類語言偏見(bias)。
下載鏈接
論文原文 - VQA v2,人工標(biāo)注的開放式問答數(shù)據(jù)集,相較于VQAv1盡量減少了語言偏見(為每個(gè)問題補(bǔ)充了圖片),但是仍存在一些偏見。
下載鏈接
論文原文 - VQA-CP v2,該數(shù)據(jù)集通過將VQA 2.0的訓(xùn)練集和驗(yàn)證集重新劃分,得到新的訓(xùn)練集和測(cè)試集,包含219K張圖像數(shù)據(jù)、658K條問題數(shù)據(jù)、6.6M答案數(shù)據(jù)。
下載鏈接
論文原文 - FVQA,該數(shù)據(jù)集不僅有圖像和QA pairs,還有外部知識(shí)(extra knowledge),知識(shí)庫有193, 449個(gè)事實(shí)句子,包含圖像2190張,問題5826個(gè),整個(gè)數(shù)據(jù)集分成了5個(gè)train/test集,每個(gè)集合包含1100張訓(xùn)練圖像和1090張測(cè)試圖像,分別有2927和2899個(gè)問題,問題總共可以分成32類。
下載鏈接
論文原文 - COCO-QA,QA pairs是由NLP算法生成的,圖像來自COCO數(shù)據(jù)集,一共有78736個(gè)訓(xùn)練QA pairs和38948個(gè)測(cè)試QA pairs,大部分的問題是關(guān)于圖像中的目標(biāo)(69.84%),其他問題是關(guān)于顏色(16.59%),計(jì)數(shù)(7.47%),位置(6.10%)。所有問題的答案都是一個(gè)單詞,只有435個(gè)獨(dú)一無二的答案。數(shù)據(jù)集最大的缺點(diǎn)在于QA pairs是用NLP算法生成的,是將長(zhǎng)句子劃分成短句子處理的,這就忽視了句子中的語法和從句問題,算法結(jié)果不夠智能;另外,數(shù)據(jù)集只有4類問題。
下載鏈接
論文原文 - TDIUC,該數(shù)據(jù)集嘗試解決語言偏見,將問題分成了12類。
下載鏈接
論文原文 - Visual Genome,包含圖像108077張和1445233個(gè)QA Pairs,圖像來源是YFCC100M和COCO數(shù)據(jù)集,共有約540萬張圖像中的區(qū)域描述信息,這些信息能夠達(dá)到精細(xì)的語義層次,問題類型是6W(what, where, how, when, who, why),數(shù)據(jù)集并沒有對(duì)訓(xùn)練和測(cè)試數(shù)據(jù)進(jìn)行切分。QA的收集有兩種方法,一種是隨意人為提問(會(huì)出現(xiàn)相似問題或?qū)D像全局內(nèi)容提問),另一種是針對(duì)圖像中的特定區(qū)域提問。該數(shù)據(jù)集中沒有二值類問題。
下載鏈接
論文原文 - Visual7W,是Visual Genome的一個(gè)子集,包含47,300張圖像。Visual7W的問題主要由What, Where, How, When, Who,Why, and Which構(gòu)成。Visual7W的問題是多選問題,每個(gè)問題都有四個(gè)候選答案。
下載鏈接
論文原文 - GQA,2019年提出的數(shù)據(jù)集,其dataset bias低,重視推理能力和組合式語言理解能力,提出了新的metric(Consistency、Validity、Plausibility、Distribution、Grounding)。
下載鏈接
論文原文 - VQA-Rephrasing,2019年提出的數(shù)據(jù)集,注重問題回答一致性。
下載鏈接
論文原文 - SQuINTing,2020年提出的數(shù)據(jù)集,將問題進(jìn)行分類,有些問題需要回答“先驗(yàn)”問題,以保證模型回答的一致性。
下載鏈接
論文原文 - EST-VQA,2020年提出的場(chǎng)景文本數(shù)據(jù)集。
下載鏈接
論文原文
Metrics
- 準(zhǔn)確率:有更細(xì)致的劃分——Yes/No、Numbers、Others
- WUPS(n)(Wu-Palmer Similarity):根據(jù)兩個(gè)單詞在一個(gè)分類樹中的最長(zhǎng)公共子序列來計(jì)算相似性。如果預(yù)測(cè)單詞和標(biāo)準(zhǔn)答案單詞的相似性低于設(shè)定的閾值(n),則候選答案的評(píng)分為0。
- Consistency:考察模型回答問題的一致性,對(duì)于同一張圖片的不同問題,回答不應(yīng)該自相矛盾。
- Validity:考察模型回答問題的有效性,如顏色相關(guān)的問題,模型的回答應(yīng)該是一種顏色。
- Plausibility:考察模型回答問題的合理性,如蘋果有紅色和綠色,但是沒有紫色的,所以在問蘋果顏色時(shí),不能出現(xiàn)紫色的答案。
- Distribution:考察預(yù)測(cè)答案的分布與真實(shí)答案的分布之間的距離,如果模型只預(yù)測(cè)那些經(jīng)常出現(xiàn)的答案,忽略出現(xiàn)次數(shù)少的答案,則此分?jǐn)?shù)較低。
- Grounding:考察模型是否將attention放在了準(zhǔn)確的區(qū)域。
總結(jié)
以上是生活随笔為你收集整理的Visual Question Answering概述的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Image Captioning概述
- 下一篇: Visual BERT论文的简单汇总