ACL 2020 《Cross-Modality Relevance for Reasoning on Language and Vision》论文笔记
目錄
- 簡介
- 動機
- 貢獻
- 方法
- 實驗
簡介
本文設計了一個Cross-Modality Relevance Module(跨模態相關模塊),對不同模態的信息進行關聯,且在不同的task上都是端到端訓練。
下載鏈接
動機
跨模態表示學習中,有一類方法致力于尋找處理不同模態數據時,components和structure的相關性,現有的方法多使用注意力機制。隨著信息檢索領域的發展,尋找不同信息之間的相關性(也就是“matching”)作為核心問題,變得越來越重要。之后,Transformer出現了,受益于“matching”,其在多個task上取得了SOTA。但是,這種在注意機制中的“matching”是用來學習一組權重,來突出components的重要性,忽略了relevance patterns(相關模式,這個詞我沒有很get到)。本文正是從此出發,直接基于relevance score學習不同模態的表示,達到了新的SOTA。
貢獻
方法
本文方法的整體框架如下圖所示,乍一看感覺挺復雜,其實重點在于圖的右側:Entity (Relational) Relevance Affinity Matrix、Entity (Relational) Relevance Representation。
首先,對兩種模態(μ\muμ和vvv)的信息進行單模態處理,對于文本信息,使用預訓練的BERT;對于圖像,先使用預訓練的FasterRCNN提取proposals,對于每個proposal,使用Visual Transformer再進一步處理。然后,將得到的兩種模態特征拼接,經過本文提出(引入)的跨模態Transformer(此模塊會重復堆疊)進行對齊,計算self-attention的過程,和Transformer中一樣。將和注意力融合后的每個proposal (word)的特征,稱為Visual (Textual) Entity Representations(實體表示),使用S′μ(或v)=[S1′μ(或v),S2′μ(或v),...,SNμ(或v)′μ(或v)]S^{' \mu(或v)}=[S^{' \mu(或v)}_{1}, S^{' \mu(或v)}_{2},...,S^{' \mu(或v)}_{N^{\mu(或v)}}]S′μ(或v)=[S1′μ(或v)?,S2′μ(或v)?,...,SNμ(或v)′μ(或v)?]表示。第三,得到模態μ\muμ和模態vvv的實體表示后,先計算Entity Relevance Affinity Matrix(實體相關關聯矩陣,簡稱“實體關聯矩陣”),然后基于此矩陣,計算Relational Relevance Affinity Matrix(關系相關關聯矩陣,簡稱“關系關聯矩陣”)。計算實體關系矩陣的過程,其實就是矩陣乘法——Aμ,v=(S′μ)TS′vA^{\mu,v}=(S^{'\mu})^TS^{'v}Aμ,v=(S′μ)TS′v,計算關系關聯矩陣的過程,后面再單獨說。最后,在兩個關聯矩陣上,分別做卷積、全連接,得到Φμ\Phi_{\mu}Φμ?和Φv\Phi_{v}Φv?,將二者拼接,得到最終的Entity Relevance Representation(實體相關表示),用于后續任務。
下面介紹如何計算關系關聯矩陣,整個計算過程可以總結為下圖(論文中的Fig 2)。整個過程就是,對于每一種模態,基于實體關聯矩陣,在所有可能的關系(N×(N?1)2\frac{N\times(N-1)}{2}2N×(N?1)?)中,選出Top-K個(本文中K=10K=10K=10),將得到的兩個模態的Top-K矩陣相乘,得到關系關聯矩陣。
實驗
在NLVR2數據集上的實驗結果:
在VQA v2.0數據集上的實驗結果:
關聯矩陣的可視化:
總結
以上是生活随笔為你收集整理的ACL 2020 《Cross-Modality Relevance for Reasoning on Language and Vision》论文笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ECCV 2020 《Improving
- 下一篇: CVPR 2020 《12-in-1: