2020年, VQA论文汇总
生活随笔
收集整理的這篇文章主要介紹了
2020年, VQA论文汇总
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
目錄
- CVPR2020:CSS
- AAAI2020:OLP
- TMM2020:SANMT
- ACL2020: CMR
- CVPR2020:
CVPR2020:CSS
- 題目
Counterfactual Samples Synthesizing for Robust Visual Question Answering
下載鏈接
本文出自浙江大學DCD實驗室。 - 動機
由于測試集和訓練集的QA分布不同,會造成language bias。為應對這個現象,作者認為,訓練好的模型應具有兩個能力:(1)visual-explainable,在生成answer的時候,應該更多的依賴image中正確的區域。(2)question-sensitive,模型應該能意識到question的變化。
- 貢獻
提出了CSS訓練方法,提高模型的visual-explainable和question-sensitive能力,并可以在VQA-CP上的performance。 - 方法
本文提出的是一個通用的方法,可以和現有的VQA方法進行融合,通過在訓練過程中對數據進行mask,提高模型的效果。對于每個訓練樣本(I,Q,a)(I, Q, a)(I,Q,a),具體的訓練步驟如下所示:
1.使用原始的樣本(I,Q,a)(I, Q, a)(I,Q,a)訓練模型;
2.使用V-CSS或Q-CSS生成反事實樣本(I?,Q,a?)(I^-, Q, a^-)(I?,Q,a?)或(I,Q?,a?)(I, Q^-, a^-)(I,Q?,a?);
3.使用反事實樣本訓練模型。
進行V-CSS的步驟如下(算法2中5-8行):
1.初始化幾個object作為候選,這部分follow了這篇文章(NeurIPS 2019)。
2.計算每個object的contribution,這部分follow這三篇文章:一(NAACL 2019)、二(ICCV 2019)、三(NeruIPS 2019),使用的計算公式如下:
s(a,vi)=S(Pvqa(a),vi):=(?viPvqa)T1s(a, v_i)=S(P_{vqa}(a),v_i):=(\nabla _{v_i}P_{vqa})^T1s(a,vi?)=S(Pvqa?(a),vi?):=(?vi??Pvqa?)T1 3.選擇top-K個重要的objects,將它們mask得到I?I^-I?,將其他的objects mask后得到的稱為I+I^+I+。
4.為I?I^-I?生成對應的標簽a?a^-a?(下文中算法3)
進行Q-CSS的步驟如下(算法2中11-13行):
1.計算每個word的contribution,這部分和V-CSS的第2步類似。
2.提取出question-type words(what color is the kite中的“what”、“color”),在余下的word中選出top-K個重要words(如“kite”),將它們mask后得到Q?Q^-Q?。
3.為Q?Q^-Q?生成對應的標簽a?a^-a?(下文中算法3)
V-CSS和Q-CSS中的最后一步:
關于I+,I?,Q+,Q?I^+, I^-, Q^+, Q^-I+,I?,Q+,Q?的展示:
- 實驗
在VQA-CP v2測試集上,多個模型添加本文方法得到的提升如下圖所示。其中,Baseline是原文中的結果,Baseline+是本文作者重現的結果。
和state-of-the-art的對比:
下面是實驗結果展示,綠色的boxes(or 綠色加粗字體)代表重要區域。
AAAI2020:OLP
- 題目
Overcoming Language Priors in VQA via Decomposed Linguistic Representations
下載鏈接
出自北理北京智能信息技術實驗室和阿里文娛摩酷實驗室
模型名稱OLP我自己起的,文中沒給出模型名稱。 - 動機
動機都寫在題目里啦,即:克服VQA中的Language Priors問題。何為Language Priors?在VQA領域中,會出現這類問題:詢問關于“顏色”的question時,常回答“白色”;詢問關于“運動”的question時,常回答“網球”;對于“yes/no”類問題,常回答“yes”。這是因為模型在訓練時找到了“捷徑”,回答“白色”、“網球”和“yes”比回答“黑色”、“籃球”和“no”的正確率要高。這便是Language Priors。 - 貢獻
- 方法
本文的整體框架如下圖所示,圖(a)和圖(b)代表在兩種不同type的question下的方法。從圖中可以看出,本文主要包括四個模塊:Language Attention Module、Question Identification Module、Object Referring Module和Visual Verfication Module,下面對這四個模塊分別進行介紹。
首先介紹Language Attention Module,這個模塊的結構如下圖所示,用于將question分解為type representation qtypeq_{type}qtype?、object representation qobjq_{obj}qobj?和concept representation qconq_{con}qcon?。其中,qtypeq_{type}qtype?用于判斷question的type,并作為Question Identification Module的輸入。在本文中,question共分為兩種類型:yes/no,not yes/no。qobjq_{obj}qobj?作為Object Referring Module的輸入,用于capture圖片中和question相關的區域。Visual Verification Module接收qconq_{con}qcon?(只有在"yes/no"類問題時,才接收qconq_{con}qcon?,因為"not yes/no"類問題中,qconq_{con}qcon?包含在answer中,而非question中)、Question Identification Module的輸出和Object Referring Module的輸出作為輸入,生成answer。
對于給定的Word Embeddings,先使用Type Attention對每個單詞添加注意力,使用閾值過濾掉一部分單詞(疑問詞)。使用提取出的疑問詞得到qtypeq_{type}qtype?,將剩下的單詞添加Object Attention和Concept Attention,得到qobjq_{obj}qobj?和qconq_{con}qcon?。
對于"yes/no"類問題,answer set應該只包含兩個元素{yes, no}。對于"not yes/no"類問題,需要處理出answer set。處理的方法是:生成一個mask(由0、1組成),使用KL散度訓練mask,使其接近ground truth mask。
Object Referring Module部分的方法follow了這篇文章(CVPR 2018)。
Visual Verification Module的任務是:根據從answer set中選出最正確的answer。在訓練時,對于"yes/no"問題,使用交叉熵損失;對于"not yes/no"問題,使用KL散度計算損失。 - 實驗
實驗結果
閾值對實驗結果的影響
消融實驗
實驗結果展示
TMM2020:SANMT
- 題目
Self-Adaptive Neural Module Transformer for Visual Question Answering
下載鏈接
出自張含望老師實驗室。 - 動機
- 貢獻
- 方法
- 實驗
ACL2020: CMR
- 題目
Cross-Modality Relevance for Reasoning on Language and Vision
介紹詳見這篇博客
CVPR2020:
- 題目
下載鏈接
- 動機
- 貢獻
- 方法
- 實驗
總結
以上是生活随笔為你收集整理的2020年, VQA论文汇总的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: conda - 虚拟环境,常用指令
- 下一篇: 2020年, video caption