EMNLP 2020 《MUTANT: A Training Paradigm for Out-of-Distribution Generalization in VQA》论文笔记
目錄
- 簡介
- 動機(jī)
- 方法
- 實(shí)驗(yàn)
簡介
論文鏈接
動機(jī)
VQA中的語言先驗(yàn)問題,也可以說是OOD問題(Out-Of-Distribution)。使用額外的單獨(dú)分支減輕模型學(xué)得語言先驗(yàn)的一類方法試圖消除所有的Q-A bias,作者認(rèn)為這是適得其反的。而本文的出發(fā)點(diǎn)是讓模型關(guān)注正向bias,消除負(fù)面bias。正向bias如:對于“what is the color of xxx”問題,模型應(yīng)回答“顏色”類答案,負(fù)面bias如:“香蕉是黃色的”這種語言先驗(yàn)。
方法
在我個人看來,本文方法可視為一種數(shù)據(jù)增強(qiáng)。對于數(shù)據(jù)集中的一個樣本<Q,I,A><Q, I, A><Q,I,A>,作者通過兩種方式進(jìn)行數(shù)據(jù)增強(qiáng),即:<Q,I,A>→<Q^,I,A^><Q, I, A> \rightarrow <\hat{Q}, I, \hat{A}><Q,I,A>→<Q^?,I,A^>和<Q,I,A>→<Q,I^,A^><Q, I, A> \rightarrow <Q, \hat{I}, \hat{A}><Q,I,A>→<Q,I^,A^>。前者代表在問題QQQ上進(jìn)行改變,構(gòu)造新的樣本對;后者代表在圖片III上進(jìn)行改變,得到新的樣本對。那么本文方法的核心,其實(shí)可以分為三點(diǎn):① 改變III、② 改變QQQ、③ 根據(jù)改變,生成對應(yīng)的答案。
-
改變III
對于圖片的處理,作者分為兩種策略,一是抹除重要的object,二是改變重要object的顏色。首先定義,如何衡量object是否重要。作者使用的策略是——在QQQ中提到的object視為重要。對于第一類,作者使用COCO數(shù)據(jù)集的mask標(biāo)注隨機(jī)抹除III中的mmm個object,然后使用基于GAN的inpainting方法對mask部分做一個平滑處理。對于第二類,將重要object做pixel level的換色即可。 -
改變QQQ
對于問題的處理,作者分為三種策略,一是對“yes/no”問題的語義取反,這通過添加“no/not”即可實(shí)現(xiàn)。二是使用對抗單詞代替問題中的重要單詞,如將“Is the lady holding the baby?”改為“Is the cat holding the baby?”,這部分作者構(gòu)造了一個word list,并使用BERT計算word之間的相似度。替換時,使用III中沒出現(xiàn)的、相似度最高的word進(jìn)行替換。三是對word進(jìn)行mask,使問題具有歧義性,如“Is the [MASK] holding the baby?”。 -
生成答案
抹除III中的object:對于計數(shù)問題,將答案減去抹去的重要object個數(shù);對于“yes/no”問題,當(dāng)所有重要object全部抹除時,答案會flip。
更改III中重要object的顏色:對于顏色問題,更改答案。
對于改變QQQ的前兩種策略:直接對答案取反。
對于改變QQQ的第三種策略:作者使用k-means對數(shù)據(jù)集中的所有answer做了聚類,手動調(diào)節(jié)至50個簇,將這50個簇進(jìn)行標(biāo)注,作為“廣義類”。如“紅色、黃色、綠色”等統(tǒng)稱為“顏色”類。
下面看一下模型的整體架構(gòu)。作者將AAA和對應(yīng)的<Q,I><Q, I><Q,I>多模態(tài)特征MMM投影到一個流形上,投影后的特征稱為ApA_pAp?和MpM_pMp?。對于本文生成的樣本<Q^,I,A^><\hat{Q}, I, \hat{A}><Q^?,I,A^>(或<Q,I^,A^><Q, \hat{I}, \hat{A}><Q,I^,A^>)通過一樣的操作得到A^p\hat{A}_pA^p?和M^p\hat{M}_pM^p?。通過最小化∣∣dis(Ap,Mp)?dis(A^p?M^p)∣∣||dis(A_p, M_p)-dis(\hat{A}_p-\hat{M}_p)||∣∣dis(Ap?,Mp?)?dis(A^p??M^p?)∣∣對模型進(jìn)行優(yōu)化。
實(shí)驗(yàn)
主要看下在VQA-CP v2上的實(shí)驗(yàn),結(jié)果可以說是非常好了。
總結(jié)
以上是生活随笔為你收集整理的EMNLP 2020 《MUTANT: A Training Paradigm for Out-of-Distribution Generalization in VQA》论文笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: arXiv 2021《Transform
- 下一篇: AAAI 2021 《Regulariz