2021.02.18 Visual QA论文阅读
目錄
- [2017][CVPR] Graph-Structured Representations for Visual Question Answering
- [2019][ICCV] Language-Conditioned Graph Networks for Relational Reasoning
- [2019][ICCV] Relation-Aware Graph Attention Network for Visual Question Answering
- [2020][CVPR] Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text
[2017][CVPR] Graph-Structured Representations for Visual Question Answering
文章鏈接
本文的動機在Abstract第一句,使用視覺和文本的結構化表示提升VQA性能。作者在Introduction中總結了VQA的兩個Challenge:①很多問題需要復雜的理解能力;②VQA的訓練數據具有稀疏性,即:同一張圖片上有很多不同的問題,但是訓練集中無法完全包含這些問題。
本文方法如下圖所示,在視覺和文本兩個模態上分別建立場景圖,視覺場景圖初始時全連接,文本場景圖基于斯坦福解析器。得到場景圖后,對兩張場景圖分別使用GRU+pooling操作聚集鄰居信息,重復4次,得到最終的結點特征。基于原文本和視覺特征計算余弦相似度,得到Matching weights。基于最終文本和視覺特征計算Combined features。將二者做element-wise乘法,在得到的矩陣上,進行特征聚集(過程如下面三行公式,ai,ja_{i,j}ai,j?是Matching weights中的元素),得到最終特征,用于預測答案。
作者在VQA v1.0上做了實驗(合成數據集):
中間可視化結果:
[2019][ICCV] Language-Conditioned Graph Networks for Relational Reasoning
文章鏈接
本文出自UC伯克利。
關于復雜的關系推理,已存在很多的研究方法。但是它們都將研究重點放在推理結構(inference structure)上,而忽略了特征。本文提出了LCGN(Language-Conditioned Graph Networks),使用每個節點表示一個物體,基于輸入的文本信息,通過迭代的消息傳遞,最終得到物體的上下文表示(context-aware representation)。
下圖是本文方法的整體框架。首先,使用雙向LSTM提取文本特征,這里作者使用了Stack-NMN(ECCV2018)和MAC(ICLR2018)中的multi-step textual attention。然后,對圖像提取local features。最后,進行TTT輪消息傳遞,得到output context- aware features。根據不同的任務,再添加不同的組件即可。
在GQA數據集上的實驗結果:
在GQA數據集上,使用不同的local features得到的實驗結果:
在CLEVER數據集上的實驗結果,T=4T=4T=4:
一些中間結果展示:
[2019][ICCV] Relation-Aware Graph Attention Network for Visual Question Answering
文章鏈接
現有方法在兩種模態之間存在顯著的語義gap,如:模型可以識別出有兩只斑馬,但是不知道哪些pixel來自哪只斑馬,更難以回答類似“這兩只斑馬離得遠嗎?”這種問題。為了解決這個問題,需要捕獲物體之間的動作關系和空間關系。故本文的出發點是:使用基于question的objects之間的關系,增強image的表示能力,從而提升VQA性能。
本文方法整體上如下圖所示:
其中,在Relation Encoder部分共分為三個部分:語義關系編碼器、空間關系編碼器和隱式關系編碼器,前兩個均屬于顯式關系編碼。對于每個編碼器都要構造一張圖,三張圖的結點都是一致的,不同的在于邊。隱式關系圖中使用全連接結構,顯式關系圖會訓練一個分類器,預測每兩個結點之間是否有邊。對于空間關系編碼器,作者參考了文獻[58]中的方法,生成<obj, rel, obj>形式的邊,共有11中不同的邊(如相交、左側等)。對于語義關系編碼器,作者使用Visual Genome數據集訓練了一個語義分類器,分類器的輸入是:兩個obj的feature,兩個obj的并區域的feature,分類器會輸出這兩個obj之間的關系概率。
在VQA 2.0數據集上的實驗結果:
可視化的實驗結果:
[58] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei. Exploring visual relationship for image captioning. In ECCV, 2018. 2, 3, 4, 6
[2020][CVPR] Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text
文章鏈接
本文出自計算所王瑞平老師、山世光老師。本文面對TextVQA任務,作者認為此任務的一個難點是——圖像中經常出現不常見的、或帶有歧義的詞語。所以,僅僅使用預訓練的word embedding方法是不夠的。本文提出多模態圖神經網絡(MM-GNN),通過構造三個不同的圖,聚集不同圖之間的信息,學習更好的特征用于下游的QA任務。雖然已經有很多用在VQA上的GNN方法,本文和他們區別在于:單模態圖上的信息聚集→多模態圖上的信息聚集。
本文方法如下圖所示。作者分別通過訓練好的模型對圖片進行檢測,得到三張圖:數字圖GnG_nGn?、語義圖GsG_sGs?、視覺圖GvG_vGv?。初始時,這三張圖分別是全連接的。然后,通過如圖所示的三次Aggregator,每次Aggregate時都是基于attention的(先計算兩個節點之間的score,再通過score進行softmax)。但是讓我困惑的一點是,在進行跨圖GNN時,作者說,對于語義節點sis_isi?,要first attentind on語義圖中的相關鄰居節點Nsiv\mathcal{N}_{s_i}^{v}Nsi?v?,這一步不太清楚是用attention確定的,還是別的什么操作。
在TextVQA數據集上的實驗結果:
總結
以上是生活随笔為你收集整理的2021.02.18 Visual QA论文阅读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2021.02.05 Visual QA
- 下一篇: Transformer、BERT学习笔记