ACM MM18 | 用于跨模态检索的综合距离保持自编码器
作者丨黃澄楷
研究方向丨多媒體信息檢索/內容理解
本文是發表在 MM18 上的一篇跨模態檢索文章,作者提出了一種采用綜合保持距離的自編碼器(CDPAE)的新穎方法,用以解決無監督的跨模態檢索任務。
之前的無監督方法大部分使用屬于相同對象的跨模態空間的成對表示距離進行度量學習。但是,除了成對距離之外,作者還考慮了從跨媒體空間提取的異構表示距離,以及從屬于不同對象的單個媒體空間提取的齊次表示距離,從而達到了更高的檢索精度。
研究動機
雖然先前的無監督跨模態檢索方法已經有了不錯的表現,但是仍然有兩個問題叩待解決,第一,如何減少特征中冗余的噪聲的負面影響。
▲?背景中的SIFT特征會影響Cat圖像的檢索
第二,如何直接使用不同對象的表示(representation)來表達它們之間的關系(relationship)。
即在大多數非監督方法中,不考慮虛線的關系。這兩個問題在無監督跨模態檢索的研究中涉及的較少。
研究方法
上圖就是作者提出的 CDPAE 的框架結構圖,總體上看,CDPAE 包含四個并行的去噪編碼器,并定義了綜合的保距公共空間,其中根據輸入保留三種距離,然后使用聯合損失函數將自編碼器的重構損失和相關損失結合起來。最后,還提出了一種無監督跨模態相似度的度量方法。?
具體來看,CDPAE 包含四個部分:去噪編碼器、綜合保距空間、聯合損失函數和無監督跨模態相似度測量,由于數據集的限制,本文與大部分其他跨模態檢索任務一樣,只進行圖文互搜的實驗。接下來分別對每個部分進行介紹。
1. CDPAE 的第一部分由四個去噪編碼器組成,其中兩個提取圖像相關的特征,另外兩個與文本特征相關,去噪的自編碼器負責相同的模態,它們共享相同的參數,因此相同模態的表示也具有相同的轉換。
在具體的訓練迭代中,從兩個對象中提取的兩種模式之間的四種表示形式用作輸入。如:圖中海鷗圖、描述海鷗圖的文本、自行車圖、描述自行車的文本作為輸入。?
在去噪自動編碼器中,將固定數量的輸入分量隨機設置為零,其余的保持不變。該方法模擬了從輸入端去除冗余噪聲的過程;因此,它減少了冗余噪聲的負面影響。此外,歸零過程可以看作是一種數據擴充的過程,它加強了從不同模態中提取的表示中局部結構之間的聯系。
去噪自編碼器的重構損失定義為:
V={v} 代表的是圖像的數據集,T={t}?代表的是對應的文本數據集,根據之前提到的輸入方法,使用自編碼器從提取兩組來自兩個對象對應的特征(圖像文本對特征),(vi,ti)-->(海鷗圖的圖像特征和文本特征)和 (vj,tj)-->(自行車的圖像特征和文本特征),av,wv,θv 表達的是圖像自編碼器的參數,at,wt,θt?代表的是文本自編碼器的參數,Z(*)?是隨機置零過程,F(*)?是編碼過程,G(*)?是解碼過程。?
2. 第二部分是綜合保距空間的構造:CDPAE 使用余弦距離來測量相同模態空間中的特征相似性。測量的公式:
在綜合保距空間中有三種距離:成對距離、異質距離、齊次距離,分別給出定義:
a. 成對距離的損失:
就是其他無監督跨模態檢索都考慮的距離。其中 D 為:
這個距離的作用是:成對的距離會導致公共空間,其中屬于相同對象的不同模態的表示會聚在一起(海鷗的圖像文本聚在一起、自行車的圖像文本聚在一起)。
b. 異質距離的損失:
反映了不同對象在不同模態中的表示之間的關系,這里度量的時候限制它們與原始模態空間相對應的對象之間的距離一致。
c. 齊次距離的損失:
齊次距離反映的是同一模態下來自不同對象的表示之間的關系,因為每次迭代中,都計算相同兩個對象之間的異質與齊次距離,所以設置它們的值相同。
所以綜合的保距空間如下:
3. 然后又使用了一種聯合損失函數,同時計算去噪自編碼器的重構損失和綜合保距公共空間的相關損失:
4. 最后作者又提出了一種新型的無監督跨模態相似度度量方法,在公共空間中,訓練數據集中變換后的特征之間的距離通常會比測試數據中的距離更具有可信度。
所以講兩個特征之間的相似性定義為基于 KNN 分類器的邊緣概率,該分類器用于對訓練樣本中的每個模態的表示進行分類,兩種表示的相似性可以定義為:
注意:這里的 pi/qj 分別是圖像模態/文本模態的 top k 近鄰樣本(這里的 top k 近鄰樣本不區分模態)。同時,假設兩個表示之間的距離反映了它們屬于同一語義范疇的可能性,因此,如果訓練數據集中的兩種表示形式成對對應的話,它的可能性就是 1,否則:
D 采用的是余弦相似距離,取值范圍是 0~1,距離越小,對應的表示屬于同一類別可能性就越大,進一步,去定義一個測試樣本表示與其 k 個最近的訓練數據屬于同一個類別的條件概率為:
實驗結果
作者在 Wikipedia,NUS-WIDE-10k,Pascal Sentence 以及 XMedia 數據集上進行了實驗:
圖表顯示返回的是 MAP@50 的結果,加 * 的是有監督的方法,三角形代表的是半監督的方法,剩下的都是無監督方法。另外,作者還用 t-SNE 可視化了綜合保距空間的數據分布:
上圖顯示的是 Wikipedia-Multiple 數據集中不同公共空間的 t-SNE 可視化。可以看出,在成對保持距離的公共空間中,圖像和文本的表征往往是混合的。然而,來自相同類別的表示并沒有得到令人滿意的聚類,這就是傳統無監督跨模態檢索只使用的距離。
在異質的保距離公共空間中,圖像和文本的表征就有明顯的區別,這是因為模內距離遠小于模間距離。此外,在相同距離保持的公共空間中,來自相同模態的表示按其各自的類別聚在一起。
在綜合的保距離公共空間中,圖像和文本的變換表示達到了最佳的方式分布。大量具有相同語義標簽的表示形式被聚集在一起,而與它們的模態類型無關。這表明,綜合保距離公共空間具有其他三種保距離公共空間的優點,對于跨模態檢索任務是非常有效的。
結論與點評
與之前的無監督跨模態檢索方法相比,本文最大的亮點在于引入了不同對象在不同模態間的距離以及不同對象在相同模態間的距離,就是文中提出的學習到的一個綜合保距空間,這是之前大部分跨模態檢索方法沒有考慮到的。
然后利用聯合損失函數將距離的損失函數與自編碼器重構損失一起訓練,達到一個很好的效果,與目前所有的無監督跨模態檢索方法相比,平均性能高出 12.5%,與半監督與有監督方法相比,在多個數據集上表現也有前三的水平。
點擊以下標題查看更多往期內容:?
Airbnb實時搜索排序中的Embedding技巧
圖神經網絡綜述:模型與應用
近期值得讀的10篇GAN進展論文
自然語言處理中的語言模型預訓練方法
從傅里葉分析角度解讀深度學習的泛化能力
深度思考 | 從BERT看大規模數據的無監督利用
AI Challenger 2018 機器翻譯參賽總結
小米拍照黑科技:基于NAS的圖像超分辨率算法
異構信息網絡表示學習論文解讀
不懂Photoshop如何P圖?交給深度學習吧
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢??答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
??來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 獲取最新論文推薦
總結
以上是生活随笔為你收集整理的ACM MM18 | 用于跨模态检索的综合距离保持自编码器的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 你不是一个人在战斗!有人将吴恩达的视频教
- 下一篇: NeuSomatic:基于深度CNN的肿