2021.02.23 Visual QA论文阅读
目錄
- [2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answering
[2020][NeurIPS]Multimodal Graph Networks for Compositional Generalization in Visual Question Answering
文章鏈接
本文的動機很明確,就是組合泛化。什么是組合泛化?在測試集中出現了訓練集中沒有出現過的“組合”。如:訓練集中有“紅色的狗”、“綠色的貓”,但是測試集中的數據是“紅色的貓”。
在相關工作中,作者首先分析了基于神經符號的VQA方法,典型的方法如NMNs、NS-VQA和NS-CL。這些方法在組合泛化上也具有不錯的性能,與它們相比,本文的優勢在于,使用概率因子圖和圖神經網絡使兩種模態中的concept具有更強的耦合。與基于GNN的VQA方法相比,本文在文本圖和視覺圖的結點之間做了soft matching。和注重泛化性的VQA方法(SAN、GVQA)相比,這些方法在unseen的對象屬性(cleverr - cogent)和語言結構模式(CLOSURE)的組合上沒有進行評估,泛化性能不夠好。
方法上,本文先將圖片和問題分別解析成圖,使用共享參數的圖神經網絡進行圖上的信息傳遞和結點特征更新。將最終得到的兩張圖(HGsH_{G_s}HGs??和HGtH_{G_t}HGt??)上的結點特征作矩陣乘法得到Φ^=HGsHGtT∈R∣Vs∣×∣Vt∣\hat{\Phi}=H_{G_s}H_{G_t}^T \in \mathbb{R}^{|V_s| \times |V_t|}Φ^=HGs??HGt?T?∈R∣Vs?∣×∣Vt?∣,再進行sinkhorn normalization得到Φ\PhiΦ。根據此矩陣,將文本特征投影到視覺空間hs′=Φhth_{s}^{'} = \Phi h_ths′?=Φht?,將原視覺特征和投影過來的特征進行concat得到最終的多模態特征hs,t=[hs,hs′]h_{s,t}=[h_s,h_{s}^{'}]hs,t?=[hs?,hs′?]
得到多模態特征后,針對VQA任務,作者直接將多模態特征輸入傳統的Encoder-Decoder架構即可。
實驗部分,作者首先在二分類驗證問題上做了實驗。
然后在CLOSURE數據集上進行了實驗:
總結
以上是生活随笔為你收集整理的2021.02.23 Visual QA论文阅读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Transformer、BERT学习笔记
- 下一篇: arXiv 2021《Transform