當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

ACL 2020 《Cross-Modality Relevance for Reasoning on Language and Vision》论文笔记

發布時間：2025/3/15 编程问答 20 豆豆

生活随笔收集整理的這篇文章主要介紹了 ACL 2020 《Cross-Modality Relevance for Reasoning on Language and Vision》论文笔记小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

簡介

本文設計了一個Cross-Modality Relevance Module（跨模態相關模塊），對不同模態的信息進行關聯，且在不同的task上都是端到端訓練。
下載鏈接

動機

跨模態表示學習中，有一類方法致力于尋找處理不同模態數據時，components和structure的相關性，現有的方法多使用注意力機制。隨著信息檢索領域的發展，尋找不同信息之間的相關性（也就是“matching”）作為核心問題，變得越來越重要。之后，Transformer出現了，受益于“matching”，其在多個task上取得了SOTA。但是，這種在注意機制中的“matching”是用來學習一組權重，來突出components的重要性，忽略了relevance patterns（相關模式，這個詞我沒有很get到）。本文正是從此出發，直接基于relevance score學習不同模態的表示，達到了新的SOTA。

貢獻

提出跨模態相關框架（cross-modality relevance framework），在一個對齊的空間中，同時考慮不同模態的實體相關性和關系相關性；

在多個跨模態任務中，可以直接端到端地訓練；

在VQA和NLVR任務上，都達到了新的SOTA。

方法

本文方法的整體框架如下圖所示，乍一看感覺挺復雜，其實重點在于圖的右側：Entity (Relational) Relevance Affinity Matrix、Entity (Relational) Relevance Representation。

首先，對兩種模態（ $μ\mu$ 和 $v$ ）的信息進行單模態處理，對于文本信息，使用預訓練的BERT；對于圖像，先使用預訓練的FasterRCNN提取proposals，對于每個proposal，使用Visual Transformer再進一步處理。然后，將得到的兩種模態特征拼接，經過本文提出（引入）的跨模態Transformer（此模塊會重復堆疊）進行對齊，計算self-attention的過程，和Transformer中一樣。將和注意力融合后的每個proposal (word)的特征，稱為Visual (Textual) Entity Representations（實體表示），使用 $S′μ(或v)=[S1′μ(或v),S2′μ(或v),...,SNμ(或v)′μ(或v)]S^{' \mu(或v)}=[S^{' \mu(或v)}_{1}, S^{' \mu(或v)}_{2},...,S^{' \mu(或v)}_{N^{\mu(或v)}}]$ 表示。第三，得到模態 $μ\mu$ 和模態 $v$ 的實體表示后，先計算Entity Relevance Affinity Matrix（實體相關關聯矩陣，簡稱“實體關聯矩陣”），然后基于此矩陣，計算Relational Relevance Affinity Matrix（關系相關關聯矩陣，簡稱“關系關聯矩陣”）。計算實體關系矩陣的過程，其實就是矩陣乘法—— $Aμ,v=(S′μ)TS′vA^{\mu,v}=(S^{'\mu})^TS^{'v}$ ，計算關系關聯矩陣的過程，后面再單獨說。最后，在兩個關聯矩陣上，分別做卷積、全連接，得到 $Φμ\Phi_{\mu}$ 和 $Φv\Phi_{v}$ ，將二者拼接，得到最終的Entity Relevance Representation（實體相關表示），用于后續任務。

下面介紹如何計算關系關聯矩陣，整個計算過程可以總結為下圖（論文中的Fig 2）。整個過程就是，對于每一種模態，基于實體關聯矩陣，在所有可能的關系（ $N×(N?1)2\frac{N\times(N-1)}{2}$ ）中，選出Top-K個（本文中 $K = 10$ ），將得到的兩個模態的Top-K矩陣相乘，得到關系關聯矩陣。

實驗

在NLVR2數據集上的實驗結果：

在VQA v2.0數據集上的實驗結果：

關聯矩陣的可視化：

總結

以上是生活随笔為你收集整理的ACL 2020 《Cross-Modality Relevance for Reasoning on Language and Vision》论文笔记的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： ECCV 2020 《Improving
下一篇： CVPR 2020 《12-in-1:

编程问答

ACL 2020 《Cross-Modality Relevance for Reasoning on Language and Vision》论文笔记

目錄

簡介

動機

貢獻

方法

實驗

總結