论文笔记 | Counterfactual Samples Synthesizing for Robust VQA
論文筆記整理:竇春柳,天津大學碩士。
來源:CVPR 2020
鏈接:
https://openaccess.thecvf.com/content_CVPR_2020/papers/Chen_Counterfactual_Samples_Synthesizing_for_Robust_Visual_Question_Answering_CVPR_2020_paper.pdf
動機
當今的VQA模型傾向于捕獲訓練集中的表層語言相關性,而不能推廣到具有不同QA分布的測試集中。為了減少語言偏見,最近的一些工作引入了一個輔助的僅問題模型,以規范化目標VQA模型的訓練,并在VQA-CP上實現主導性能。但是,由于設計的復雜性,當前的方法無法為基于集成模型的模型配備理想VQA模型的兩個必不可少的特征:1)視覺可解釋的:模型在做出決策時應依賴正確的視覺區域。2)對問題敏感:該模型應對所討論的語言變化敏感。為此,本文提出了一種與模型無關的反事實樣本合成(CSS)訓練方案。
亮點
作者提出了與模型無關的反事實樣本合成(CSS)訓練方案,可以有效提高模型的視覺可解釋性和問題敏感度。為避免昂貴的人工注釋,設計了一種動態答案分配機制,以近似所有合成VQ對的真實答案。
概念及模型
目前將VQA任務是當做一個多類別的分類任務,不失一般性,給定一個數據集,三元組,圖片,問題和答案,VQA任務學習映射,對于給定的圖片-問題對給出答案分布。
本文提出的是一個通用的方法,可以和現有的VQA方法進行融合,通過在訓練過程中對數據進行mask,提高模型的效果。對于每個訓練樣本(I,Q,a),具體的訓練步驟如下所示:
(1)以初始的三元組訓練模型
(2)通過V-CSS合成反事實樣本和Q-CSS反事實樣本.
(3)用反事實樣本訓練模型
lV-CSS
根據算法2中顯示,V-CSS包含個步驟:初始化對象的選擇,對象局部貢獻的計算,重要對象的選擇,動態分配答案。
(1)初始化對象的選擇:
由于圖片中的對象只有一小部分跟問題是相關,所以需要選擇出與圖片有關系的一個小的對象集合I,想法就是首先用SpaCy POS標簽給問題中每個單詞一個標簽,從中選擇出名詞,計算對象類型與名詞的cosine相似度,選擇出其中相似度最高的作為集合I。
(2)對象局部貢獻的計算:
得到對象集合后,計算那個對象對于回答問題更有作用,利用修改的Grad-CAM來獲得哪個對象的的貢獻最大。
(3)重要對象的選擇:
計算完集合內所有對象的貢獻后,選擇其中貢獻最大的K個(score最高的K個),K由以下公式決定:
其中是一個常數。然后是的絕對補集。
(4)動態分配答案
對于反事實視覺輸入和原始問題輸入Q構成新的問題視覺對,為了分配正確的答案,首先將輸入到VQA模型內,然后得到,根據選擇概率值最高的K個答案為集合。然后將剩余的作為,最極端的情況就是包含所有的正確答案,則內不包含正確答案,相當于一個空集。這個方法的動機就是可以正確預測答案,則就不應該再包含原本問題中的正確答案了。
lQ-CSS
Q-CSS包含三步,計算每個單詞的貢獻,選擇其中最重要的單詞,動態地分配答案。
(1)計算每個單詞的貢獻:
以下公式計算每個單詞的貢獻率:
?(2)選擇其中最重要的單詞:
首先提取能夠代表每個問題類型的單詞,然后選擇K個除了問題類型單詞的分數最高的單詞當做最重要的單詞,然后將重要的單詞替換成'[mask]'后得到。而就是將除了類型單詞和重要單詞以外的單詞替換成[mask],
(3)動態地分配答案:
與V-CSS這一步驟相同,這一步驟DA_ASS的輸入是。
理論分析
實驗
首先是消融實驗,集合I的大小、關鍵字的個數、參數的大小。
在VQA-CP v2測試集上,多個模型添加本文方法得到的提升如下圖所示。其中,Baseline是原文中的結果,Baseline+是本文作者重現的結果。
總結
在本文中,我們提出了一種與模型無關的反事實樣本合成(CSS)訓練方案,以提高模型的視覺可解釋性和對問題敏感的能力。CSS通過掩蓋關鍵對象或單詞來生成反事實訓練樣本。同時,CSS可以持續提高不同VQA模型的性能。
?
?
OpenKG
開放知識圖譜(簡稱 OpenKG)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用。
點擊閱讀原文,進入 OpenKG 博客。
總結
以上是生活随笔為你收集整理的论文笔记 | Counterfactual Samples Synthesizing for Robust VQA的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 论文小综 | Attention in
- 下一篇: 论文浅尝 - ESWA | 知识图谱的自