用GAN的方法来进行图片匹配!休斯顿大学提出用于文本图像匹配的对抗表示学习,消除模态差异!
【寫在前面】
對于許多計算機視覺應用,如圖像字幕、視覺問答和人員搜索,學習圖像和文本級別的判別特征表示是一個基本但具有挑戰性的問題。它的挑戰源于文本域中的較大單詞差異,以及難以準確測量兩種模態特征之間的距離。之前的大多數工作都集中在后一個挑戰上,通過引入損失函數來幫助網絡學習更好的特征表示,但無法考慮文本輸入的復雜性。鑒于此,作者提出了TIMAM:一種文本圖像模態對抗性匹配方法,該方法使用對抗性和跨模態匹配目標學習模式不變特征表示。此外,作者證明了一種提取單詞嵌入的公共可用語言模型BERT可以成功地應用于文本到圖像匹配領域。該方法在四個廣泛使用的公共可用數據集上實現了最先進的跨模態匹配性能,Rank-1精度的絕對提高達到2%-5%。
1. 論文和代碼地址
Adversarial Representation Learning for Text-to-Image Matching
論文地址:https://openaccess.thecvf.com/content_ICCV_2019/papers/Sarafianos_Adversarial_Representation_Learning_for_Text-to-Image_Matching_ICCV_2019_paper.pdf "https://openaccess.thecvf.com/content_ICCV_2019/papers/Sarafianos_Adversarial_Representation_Learning_for_Text-to-Image_Matching_ICCV_2019_paper.pdf
代碼地址:未開源
2. Motivation
作者開發一種跨模態匹配方法,提供文本描述,識別和檢索最相關的圖像。例如,有一句話“一個穿著白色襯衫的女人手里拿著一個黑色錢包”,作者希望獲得具有這種視覺特征的個人的圖像。匹配圖像和文本的第一個挑戰是,即使在描述同一圖像時,文本描述中的文字變化也很大。對于一個人來說,被視為重要信息的內容對于另一個標注者來說不一定相同。同時,文本描述可能包含錯誤,描述可能太長,或者標注者可能描述圖像上可用但與主要興趣點(例如,人、物體)無關的其他信息。這些因素使得文本到圖像的匹配成為一個困難的問題,因為從這些描述中學習良好的特征表示并不簡單。
文本到圖像匹配的第二個主要挑戰是如何準確測量文本和圖像特征之間的距離。在部署過程中,計算探測文本特征和所有庫圖像特征之間的距離,并根據該標準對結果進行排序。大多數現有方法引入損失函數來應對這一挑戰。雖然這些方法的性能一直優于以前的最先進技術,但其性能仍然不令人滿意。例如,CUHK-PEDES數據集上的最佳文本圖像匹配方法在rank-1精度方面低于50%。最后,大多數方法通常依賴于執行匹配時的一些假設。然而,當對相同的文本輸入進行詞性標注時,作者發現重要信息丟失了,因為同一個單詞可以根據上下文或其在句子中的位置進行不同的標注。
在本文中,作者的目標是:(i)從視覺和文本輸入中學習區分表示;以及(ii)在如何學習單詞嵌入方面改進了以前的文本到圖像匹配方法。為了完成這些任務,作者引入了TIMAM:一種文本-圖像模態對抗性匹配方法,它在兩種模態之間執行匹配,并在不需要任何額外監督的情況下獲得最先進的結果。
這項工作的第一個貢獻是一個對抗性表征學習(ARL)框架,它將兩種模態的特征“彼此接近”。文本和視覺特征表示被饋送到鑒別器,該鑒別器旨在識別輸入是來自視覺還是文本模態。通過學習愚弄鑒別器,可以學習能夠成功執行文本到圖像匹配的模態不變特征表示。鑒別器的對抗性損失以及識別損失和跨模態投影匹配損失用于聯合訓練整個網絡端到端。作者證明了對抗式學習非常適合跨模態匹配,并提高了rank-1精度。本文的第二個貢獻源于在如何學習單詞嵌入方面改進了以前的文本到圖像匹配方法。作者從自然語言處理社區借用了最近的語言表示模型BERT,它代表來自Transformers的雙向編碼器表示。作者證明,這種模型可以成功地應用于文本到圖像匹配,并可以顯著提高現有方法的性能。每個描述都被輸入到語言模型,該語言模型提取單詞表示,然后輸入到LSTM,并映射到最終的句子嵌入。
因此,TIMAM在使用這兩種模態的主干的學習能力的同時,可以從提出的目標函數中獲得更具歧視性的特征表示。通過實驗、消融研究和定性結果,作者證明:
1)對抗式學習非常適合于跨模態匹配,它可以從兩種模式中產生更具歧視性的嵌入。使用本文提出的學習方法,作者觀察到與以前性能最好的技術相比,Rank-1準確性的改善范圍為2%到5%。
2)預訓練的語言模型可以成功地應用于跨模態匹配。通過利用BERT的微調能力,可以學習更好的文字嵌入。實驗結果表明,當以這種方式學習特征時,Rank-1精度比以前的工作提高了3%-5%。
3. 方法
在本節中,作者提出了TIMAM:一種跨模態匹配方法,該方法學習匹配兩種模態的特征表示,以便執行文本到圖像和圖像到文本的檢索。
3.1. Joint Feature Learning
在訓練過程中,本文的目標是學習能夠從另一個模態準確檢索輸入ID(或類別)的視覺和文本特征表示。訓練模型如上圖所示。具體來說,作者在訓練時的輸入由三元組組成,其中是來自視覺域的圖像輸入,是來自描述該圖像的文本域T的文本描述,是輸入的標識類別。為了學習表示的視覺表示,任何圖像分類模型都可以用作主干網絡(本工作中使用了ResNet101網絡)。最后一個殘差塊的特征映射使用全局平均池和全連接層投影到特征向量的維數。作者選擇了沒有任何注意塊的原始主干架構,以保持主干簡單,易于在任何框架中復制,并避免學習更多參數。
從這兩種模態中學習區分性表示對于文本到圖像的匹配至關重要。然而,對于圖像域,大多數現有方法依賴于深層架構,這些架構已證明其能夠為廣泛的任務提取判別特征,而對于文本域則不是這樣。之前的工作通常依賴于單個LSTM對文本輸入進行建模,并學習與輸入句子相對應的特征。作者認為,阻礙現有計算機視覺方法在文本-圖像匹配問題上表現良好的主要原因之一是文本特征沒有足夠的區分性。為了解決這個局限性,作者從自然語言處理社區借用了最近提出的語言表示模型BERT。然后,從BERT中提取的單詞嵌入序列被饋送到雙向LSTM,該LSTM有效地總結了輸入文本描述的內容。最后,通過使用全連接層將LSTM的輸出投影到特征向量的維數,獲得由表示的文本表示。在輸出詞嵌入中使用LSTM的原因是,它能夠最初“凍結”語言模型的權重,并僅微調LSTM和全連接層,從而顯著減少參數數量。一旦觀察到足夠的性能,將“解凍”語言模型的權重,并對整個網絡進行端到端訓練。
3.2. Cross-Modal Matching
考慮到視覺和文本特征,本文的目標是引入損失函數,使來自同一身份/類別的特征緊密結合在一起,并推開來自不同身份的特征。為了完成這項任務,作者引入了兩個損失函數來進行身份和跨模態匹配。識別損失是一種norm-softmax交叉熵損失,通常用于人臉識別應用,該應用引入了輸出層權重的L2歸一化。通過這樣做,它強制模型關注不同樣本權重之間的角度,而不是其大小。對于視覺特征,norm-softmax交叉熵損失可以描述如下:
其中I代表身份,V對應于視覺形態,B是batch大小,是視覺特征表示的分類層的權重和偏差。文本特征的損失以類似的方式計算,最終分類損失為。值得注意的是,對于沒有ID標簽但只有圖像-文本對的數據集(例如Flickr30K數據集),作者為每個圖像分配一個唯一的ID,并將該ID用作識別損失的Ground Truth。然而,僅僅專注于執行準確識別并不足以進行跨模態匹配,因為到目前為止,兩種模態的表示之間沒有關聯。為了應對這一挑戰,作者使用跨模態投影匹配損失,它將跨模態投影合并到KL散度度量中,以關聯不同模式的表示。文本表示句首先歸一化,然后匹配到的概率由以下公式得出:
轉置圖像嵌入和歸一化文本嵌入之間的乘積反映了到之間的標量投影,而概率表示該標量投影在一batch中對之間的所有標量投影中的比例。因此,圖像嵌入與文本嵌入越相似,從前者到后者的標量投影越大。由于在每個小batch中可能存在多個正匹配(即來自同一身份的視覺和文本特征),因此真實匹配概率標準化如下:。然后,將與正確匹配的文本特征關聯的跨模態投影匹配損失定義為從真實匹配分布到匹配概率的KL發散。對于每個batch,該損失定義為:
其中M表示匹配,是一個非常小的數字,用于防止被零除。遵循相同的過程來執行相反的匹配(即從文本到圖像)來計算損失,在此過程中,視覺特征被歸一化。最后,兩個單獨損失的總和構成跨模態投影匹配損失。
3.3. Adversarial Cross-Modal Learning
當訓練對抗性神經網絡時,在鑒別器D和特征生成器G之間進行極小極大博弈。G和D都經過聯合訓練,因此G試圖愚弄D,D試圖做出準確的預測。對于文本到圖像匹配問題,兩個主干架構分別作為視覺和文本模態的特征生成器和,分別生成特征表示和。關鍵思想是為每個輸入模態學習一個良好的通用表示,以最大限度地提高匹配性能,同時模糊模態信息。通過學習愚弄模態鑒別器,可以學習更好的特征表示,能夠執行文本到圖像的匹配。生成的嵌入被饋送到模態鑒別器,該鑒別器對輸入特征表示是從視覺模態還是文本模態中提取進行分類。鑒別器由兩個完全連接的層組成,這些層將嵌入大小減少到用于預測輸入模態的標量值。鑒別器根據以下GAN[損失函數進行優化:
其中,V和T分別對應于圖像和文本模態。
3.4. Training and Testing Details
用于訓練TIMAM的損失函數是兩個識別損失()、兩個跨模態匹配損失()和鑒別器的對抗性損失()的總和:
上圖對這三個學習目標進行了說明。在測試時,將文本描述作為probe,使用余弦相似性計算其文本特征及其在測試集中所有圖像特征之間的距離:
4.實驗
作者根據在CUHK-PEDES數據集上測試過的八種性能最佳的方法對本文的方法進行了評估,并在上表中給出了文本到圖像的匹配結果。
上表展示了Flickr30K上的圖像文本檢索結果。
上表展示了CUB和Flowers數據集的跨模態匹配結果。
作者在cuhk-pedes數據集上進行消融研究,以研究不同的模塊對rank-1和rank-10準確性方面的影響。
作者對Flickr30K數據集進行消融研究,以評估不同主干架構深度的影響。
上圖展示了不同數據集上,本文方法的定性實驗結果。
上圖展示了該方法的兩個失敗案例。雖然檢索到的結果都與真實文本ID不匹配,但它們仍然與文本查詢非常相關。
5. 總結
學習用于跨模態匹配的判別表示具有重大挑戰,例如變化很大的語言輸入的差異和測量多模態特征之間距離的困難。為了應對這些挑戰,作者引入了TIMAM:一種文本圖像匹配方法,該方法使用了一個對抗性鑒別器,旨在識別輸入是來自視覺還是文本模態。當鑒別器與識別和跨模態匹配目標聯合訓練時,會產生判別模態變量嵌入。此外,作者觀察到深度語言模型可以提高跨模態匹配能力,因為可以學習更好的文本嵌入。通過大量實驗證明,(i)對抗式學習非常適合文本圖像匹配,(ii)深度語言模型可以成功地用于跨模態匹配應用。在四個公開可用的數據集中獲得了最先進的結果,所有這些數據集都廣泛用于該領域。
已建立深度學習公眾號——FightingCV,歡迎大家關注!!!
加入交流群,請添加小助手wx:FightngCV666
ICCV、CVPR、NeurIPS、ICML論文解析匯總:https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading
面向小白的Attention、重參數、MLP、卷積核心代碼學習:https://github.com/xmu-xiaoma666/External-Attention-pytorch
本文由 mdnice 多平臺發布
總結
以上是生活随笔為你收集整理的用GAN的方法来进行图片匹配!休斯顿大学提出用于文本图像匹配的对抗表示学习,消除模态差异!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: See Finer, See More!
- 下一篇: 转发--目前开源数据集整理