當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文笔记：Adaptive Cross-Modal Prototypes for Cross-Domain Visual-Language Retrieval

發布時間：2023/12/8 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了论文笔记：Adaptive Cross-Modal Prototypes for Cross-Domain Visual-Language Retrieval 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

用于跨域視覺語言檢索的自適應跨模態原型

摘要
介紹
方法
- 問題描述
- 單峰組合龍骨
- 源和目標原型網絡
- - 最大化跨模態原型之間的互信息

摘要

在本文中，我們研究了在高度實用的環境下的視覺文本檢索任務，在這種環境下，帶有成對文本描述的標記視覺數據在一個域（“源”）中可用，而在感興趣的域（“目標”）中只有未標記視覺數據（沒有文本描述）可用。我們提出了AdaptiveCross-MODAL原型框架，該框架旨在通過學習跨模態可視文本表示來實現目標域檢索，同時最小化源域和目標域之間的單峰和跨模態分布偏移。。我們的方法基于兩個關鍵思想：第一，我們對歸納偏差進行編碼，即學習到的跨模態表示應該是關于每個模態中的概念的組合。這是通過在每個域中聚類預訓練的單峰特征并設計仔細的正則化方案來實現的，以保留產生的結構。其次，在學習過程中，我們在源域和目標域的跨模態表示之間使用互信息最大化，這提供了一種機制，該機制保留了域之間的共性，同時丟棄了每個域中無法從另一個域推斷的信號。我們展示了我們的跨域可視文本檢索方法，優于現有的圖像和視頻檢索方法。

介紹

在本文中，我們研究了一個語用問題，即我們如何能夠最好地利用配對數據學習“源”領域的知識，從而推廣到其他“目標”領域，而無需額外數據收集的高昂成本。這項研究揭示了機器在一般情況下如何理解視覺和文本信息，而不是學習和利用特定領域的配對知識。

將在標記的源域上學習的模型轉移到未標記的目標域的任務稱為無監督域自適應（UDA）。在這方面，單峰分析已經取得了很大的進展。eg：圖像分類[41]、圖像分割[59]、文本情感分類[51]等。

本文將UDA用于涉及視覺和自由形式自然語言描述的跨模態任務。

可視化文本檢索模型必須解決三個挑戰（如圖1所示）：

(1）組成性:該模型需要用多個視覺實體(多個單詞)的組合以及它們之間的關系來編碼復雜的語義特征。（多個單詞）
（2） 報告偏差:檢索要求模型解決一個具有挑戰性的集到集的跨模態匹配問題(其中多個視覺實體對應于自由形式的句子中包含的各種單詞)，其中跨模態的信息僅部分匹配(也就是沒有把整個圖片的所有信息全部描述出來，僅僅描述了重點的意思)。
（3） 視覺和文本領域的轉變:檢索模型必須對視覺內容和書面描述的領域轉移具有魯棒性。（也就是跨域唄）

ACP:
(1)為了解決組合性的需要，并實現報告偏差的穩健性，我們建議學習一種精心設計的正則化的跨模式表示。由于用于文本視頻檢索的數據樣本缺乏自然的離散語義類結構（不同于用于分類的傳統UDA，其中每個視覺輸入映射到一個或多個有限的預定義類別），我們首先對目標域中的視覺內容和源域中的文本執行現成的單峰嵌入聚類。然后，我們將原型網絡連接到跨模態表示，并要求它們預測每個樣本的單峰嵌入到同一模態內樣本的每個聚類中心的分配概率。（感覺就是先按照老方法處理文本和視頻（局域網），然后連接到互聯網，然后處理其他人的信息）目標是確保在使用源域上的成對數據進行訓練時，通過聚類發現的類別之間的關系不會在跨模態表示中丟失。

（2）為了最大限度地減少跨域視覺和文本分布變化的影響，我們在源域和目標域上的原型網絡預測之間采用互信息最大化[29]。這旨在保留域之間的共性，同時丟棄每個域中無法從另一個域推斷的信號。

本文的研究成果如下: (1)提出了一種新的跨模態檢索框架，即自適應跨模態原型(adaptivcross -modal prototype)，通過保留單模態數據中組成概念的語義結構，實現了UDA環境下的跨模態檢索;(2)我們證明，最大化源和目標跨模式原型集群分配預測之間的共現互信息是減少視覺和文本數據域轉移的有效機制(3)與僅在源域上訓練的檢索系統相比，我們的方法在三個圖像檢索數據集和三個視頻檢索數據集上實現了改進，以及替代域適應策略，如最大平均差異變體[42]、對抗性學習策略[24]和運輸建模[17]。

方法

問題描述

源域已配對的視覺和文本樣本，目標域未配對的視覺樣本，我們的目標是學習一個跨模態嵌入空間，這樣當?描述v時，它在域v和?上的描述的距離應該嵌入得很近(意思就是，如果兩個域的v和?是一個描述一個，特們就該離得近)，否則則要分開很遠。

ADAPTIVECROSS-MODAL原型（ACP）的總體框架如圖2所示，其中藍色和紅色箭頭分別表示來自源域和目標域的信息流。它由六個組件組成，包括視覺和文本編碼器 $E_v$ , $E_l$ ，單峰視覺和文字基調 $K_v$ , $K_l$ , 跨模式源和目標原型網絡 $P_s$ , $P_t$ 。我們將在下面討論這些組件及其相互作用。

單峰：感覺就是一個，比如匹配一個視頻，一種類別這個意思。

按照[62]中流行的跨模態方法，我們使用視覺編碼器和文本編碼器?映射每個可視樣本和文本描述的步驟?進入一個共享的交叉模態嵌入空間，Ev（v），E?(?)∈RM，其中當且僅當文本描述視覺輸入時，視覺嵌入和文本嵌入彼此接近。我們利用源域中的成對數據強制執行雙向排名損失，以對齊內容和文本描述，如下所示：

Visual and Text Keels:為了用多個視覺概念（多個單詞）的組合來表示復雜的語義特征，我們建議利用每個模態中現成的結構知識來構造視覺和文本基架。

具體地說，我們首先用通用的視覺描述符和文本描述符獨立地繪制單模態數據結構——這些是現成的“現成的”視覺分類和句子分類模型，它們已經經過了標簽、在計算機視覺和自然語言處理社區中可用的大規模單模態數據集。

我們在每個模態內獨立地用Lloyds算法[39]聚類通用描述符，生成一組質心，我們稱之為視覺質心和文本質心(這個名字反映了這些質心用于穩定適應過程的意圖)。
然后，我們通過計算其在所有聚類質心上的相似度分布對每個樣本進行編碼。這種賦值是“靜態的”，即預先訓練的描述符是凍結的，從不進行微調，因此賦值提供了一個領域中立(w.r.t源和目標域)信號來描述單模結構知識。

源和目標原型網絡: 接下來，我們將描述如何在每個領域中使用單峰結構知識來有效地正則化跨峰嵌入的學習以進行檢索。具體來說，我們將源和目標原型網絡（每個都包含一個線性投影）附加到跨模式嵌入特征上，并讓它們預測每個樣本的聚類分配。

我們最小化KL發散損失，以懲罰該原型分配預測中的差異，因為交叉模態嵌入和由單峰龍骨確定的龍骨分配。這樣做的目的是，跨模態嵌入應該保留原始單峰視覺和文本空間中的局部語義關系。

鏈接跨域原型: 由于原型網絡分別由源樣本和目標樣本驅動，其分配的差異反映了域轉移。這些集群分配之間的共存揭示了跨域的底層關系。具體地說，對于源和目標樣本，我們通過最大化源和目標原型分配之間的互信息（MI）[29,48]來規范跨模式特征學習（即，從同一樣本獲得的分配應該彼此可預測，無論領域如何）。這旨在幫助以跨模態方式最大限度地減少域轉移

單峰組合龍骨

與基于分類的UDA設置不同，自由格式的文本描述缺少一組明確定義的、有限的類別標簽。因此，我們不能通過計算每個類別內實例的平均特征向量來形成文本框架。

我們提出用通用文本描述符編碼源文本描述來繪制單模態源文本分布，并在大量自由形式句子的語料庫上預先訓練一個“凍結”的句子級語言模型。然后使用Lloyd的算法[39]對源文本示例的描述符進行聚類。每個集群質心被命名為文本龍骨。

然后根據文本龍骨之間的關系，通過計算其簇分配的概率，對每個源文本樣本進行編碼，然后計算概率。

預訓練語言模型的作用有兩個：（1）以這種方式對語義相似的句子進行編碼，每個文本簇質心表示如何使用描述片段的組合來描述一段視覺內容；（2）為了提高泛化能力，大型、預訓練語言模型表現出顯著的少鏡頭學習能力[4]，這表明由預訓練模型編碼的表示具有足夠的可組合性，可以有效地進行泛化。

視覺龍骨構造：與文本龍骨結構類似，我們首先使用通用視覺描述符i繪制單峰視覺數據分布圖。E來自單峰感知任務的預訓練模型。在執行聚類算法以獲得視覺龍骨后，通過計算龍骨分配概率，通過視覺龍骨{Vk}Kk=1之間的關系對每個目標視覺樣本進行編碼

與文本龍骨結構相比，有兩個主要區別：（1）為了捕獲多個視覺概念的不同組成，我們提取了多個通用視覺描述符，而不是一個，利用多個感知模型，包括用于對象分類、動作識別、場景識別的預訓練模型（詳情見第4.1節）。然后，每個視覺龍骨跨越以下信息：{視覺空間中的什么、如何、何處}，描繪多個視覺概念的組合為了捕獲目標域中存在的視覺概念的分布，視覺框架是從目標樣本而不是源樣本（用于文本構建）1構建的（沒看懂呢）

源和目標原型網絡

接下來，我們將描述如何使用源文本基架和目標視覺基架來規范共享的跨模態嵌入空間。

源原型網絡：我們附加了一個源原型網絡（由單個線性投影組成），

為了在交叉模態嵌入空間中整合單峰數據的結構知識，我們最小化了（5）中所示的源KL發散損失，懲罰了“龍骨分配”之間的差異，對于每一個源文本描述，我們使用從單峰文本龍骨中獲得的龍骨分配作為“軟標簽”來指導跨峰文本嵌入的學習過程，因為可視內容與源文本樣本配對

目標原型網絡：任務是預測每個目標樣本的典型分配，

最大化跨模態原型之間的互信息

由于缺少目標域文本標簽，我們引入了更多的標簽函數來限制共享錯誤，包括用于計算單峰龍骨分配的函數f和f，用于預測跨峰原型分配的函數f和f。更具體地說，共享誤差通過三角形不等式進行限定

總結

以上是生活随笔為你收集整理的论文笔记：Adaptive Cross-Modal Prototypes for Cross-Domain Visual-Language Retrieval的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：论文笔记：Multi-level Ali
下一篇： java.sql.SQLNonTrans