當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2020年, VQA论文汇总

發布時間：2025/3/15 编程问答 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 2020年, VQA论文汇总小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

CVPR2020：CSS

題目
Counterfactual Samples Synthesizing for Robust Visual Question Answering
下載鏈接
本文出自浙江大學DCD實驗室。
動機
由于測試集和訓練集的QA分布不同，會造成language bias。為應對這個現象，作者認為，訓練好的模型應具有兩個能力：（1）visual-explainable，在生成answer的時候，應該更多的依賴image中正確的區域。（2）question-sensitive，模型應該能意識到question的變化。
貢獻
提出了CSS訓練方法，提高模型的visual-explainable和question-sensitive能力，并可以在VQA-CP上的performance。
方法
本文提出的是一個通用的方法，可以和現有的VQA方法進行融合，通過在訓練過程中對數據進行mask，提高模型的效果。對于每個訓練樣本 $(I, Q, a)$ ，具體的訓練步驟如下所示：
1.使用原始的樣本 $(I, Q, a)$ 訓練模型；
2.使用V-CSS或Q-CSS生成反事實樣本 $I^-, Q, a^-)$ 或 $I, Q^-, a^-)$ ；
3.使用反事實樣本訓練模型。

進行V-CSS的步驟如下（算法2中5-8行）：
1.初始化幾個object作為候選，這部分follow了這篇文章（NeurIPS 2019）。
2.計算每個object的contribution，這部分follow這三篇文章：一（NAACL 2019）、二（ICCV 2019）、三（NeruIPS 2019），使用的計算公式如下：
$v_i)=S(P_{vqa}(a),v_i):=(\nabla _{v_i}P_{vqa})^T1$ 3.選擇top-K個重要的objects，將它們mask得到 $I^-$ ，將其他的objects mask后得到的稱為 $I^+$ 。
4.為 $I^-$ 生成對應的標簽 $a^-$ （下文中算法3）

進行Q-CSS的步驟如下（算法2中11-13行）：
1.計算每個word的contribution，這部分和V-CSS的第2步類似。
2.提取出question-type words（what color is the kite中的“what”、“color”），在余下的word中選出top-K個重要words（如“kite”），將它們mask后得到 $Q^-$ 。
3.為 $Q^-$ 生成對應的標簽 $a^-$ （下文中算法3）

V-CSS和Q-CSS中的最后一步：

關于 $I^+, I^-, Q^+, Q^-$ 的展示：
實驗
在VQA-CP v2測試集上，多個模型添加本文方法得到的提升如下圖所示。其中，Baseline是原文中的結果，Baseline+是本文作者重現的結果。

和state-of-the-art的對比：

下面是實驗結果展示，綠色的boxes（or 綠色加粗字體）代表重要區域。

AAAI2020：OLP

題目
Overcoming Language Priors in VQA via Decomposed Linguistic Representations
下載鏈接
出自北理北京智能信息技術實驗室和阿里文娛摩酷實驗室
模型名稱OLP我自己起的，文中沒給出模型名稱。
動機
動機都寫在題目里啦，即：克服VQA中的Language Priors問題。何為Language Priors？在VQA領域中，會出現這類問題：詢問關于“顏色”的question時，常回答“白色”；詢問關于“運動”的question時，常回答“網球”；對于“yes/no”類問題，常回答“yes”。這是因為模型在訓練時找到了“捷徑”，回答“白色”、“網球”和“yes”比回答“黑色”、“籃球”和“no”的正確率要高。這便是Language Priors。
貢獻

將question進行分解，降低了language prior的影響。

將soft attention和hard attention結合，實現了從question中靈活分離concept representation和type representation。

方法
本文的整體框架如下圖所示，圖(a)和圖(b)代表在兩種不同type的question下的方法。從圖中可以看出，本文主要包括四個模塊：Language Attention Module、Question Identification Module、Object Referring Module和Visual Verfication Module，下面對這四個模塊分別進行介紹。

首先介紹Language Attention Module，這個模塊的結構如下圖所示，用于將question分解為type representation $q_{type}$ 、object representation $q_{obj}$ 和concept representation $q_{con}$ 。其中， $q_{type}$ 用于判斷question的type，并作為Question Identification Module的輸入。在本文中，question共分為兩種類型：yes/no，not yes/no。 $q_{obj}$ 作為Object Referring Module的輸入，用于capture圖片中和question相關的區域。Visual Verification Module接收 $q_{con}$ （只有在"yes/no"類問題時，才接收 $q_{con}$ ，因為"not yes/no"類問題中， $q_{con}$ 包含在answer中，而非question中）、Question Identification Module的輸出和Object Referring Module的輸出作為輸入，生成answer。

對于給定的Word Embeddings，先使用Type Attention對每個單詞添加注意力，使用閾值過濾掉一部分單詞（疑問詞）。使用提取出的疑問詞得到 $q_{type}$ ，將剩下的單詞添加Object Attention和Concept Attention，得到 $q_{obj}$ 和 $q_{con}$ 。

對于"yes/no"類問題，answer set應該只包含兩個元素{yes, no}。對于"not yes/no"類問題，需要處理出answer set。處理的方法是：生成一個mask（由0、1組成），使用KL散度訓練mask，使其接近ground truth mask。

Object Referring Module部分的方法follow了這篇文章（CVPR 2018）。

Visual Verification Module的任務是：根據從answer set中選出最正確的answer。在訓練時，對于"yes/no"問題，使用交叉熵損失；對于"not yes/no"問題，使用KL散度計算損失。
實驗
實驗結果

閾值對實驗結果的影響

消融實驗

實驗結果展示

TMM2020：SANMT

題目
Self-Adaptive Neural Module Transformer for Visual Question Answering
下載鏈接
出自張含望老師實驗室。
動機
貢獻
方法
實驗

ACL2020： CMR

題目
Cross-Modality Relevance for Reasoning on Language and Vision
介紹詳見這篇博客

CVPR2020：

題目

下載鏈接

動機
貢獻
方法
實驗

總結

以上是生活随笔為你收集整理的2020年, VQA论文汇总的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

论文
VQA

上一篇： conda - 虚拟环境，常用指令
下一篇： 2020年, video caption