“玩转标签,发现层次的力量!”:跨模态哈希方法研究
「論文訪談間」是由 PaperWeekly 和中國中文信息學會社會媒體處理專委會(SMP)聯合發起的論文報道欄目,旨在讓國內優質論文得到更多關注和認可。
?
論文動機
近年來,隨著智能終端等多媒體設備的普及,人們可以通過圖片、文字等多種模態來表征數據。相應地,跨模態檢索,即給定一個查詢模態(如文本),檢索另一模態(如圖片)的實際應用也隨即產生。為了有效地處理海量多媒體數據,跨模態哈希(Cross-Modal Hashing)憑借其低廉的存儲成本和查詢時間成本,已被廣泛應用于跨模態檢索應用當中。其中,有監督的跨模態哈希方法由于很好地利用了數據的語義標簽,提高了檢索性能,而受到越來越多研究學者的關注。
跨模態數據往往呈現底層特征異構、高層語義相關的特點。在有監督的跨模態哈希方法中,如何利用數據標簽,使數據在映射到漢明空間后,保持原始空間中的相似性關系,建立跨模態之間的關聯,是需要解決的關鍵問題。
通常,現有的方法在處理多標簽數據時,將數據的多個標簽看做是獨立的,簡單地根據數據是否共享至少一個標簽來判斷它們的相似性。但是這種方法忽略了標簽之間存在的語義相關關系。然而在許多實際應用場景中,例如時尚電商等領域,為了幫助用戶瀏覽,時尚物品通常會被預先建立的類別層次結構組織起來,即每一個物品都由一組不同粒度的層次類別所標記,如下圖所示。
顯然,不同層次的類別從不同的角度表征了時尚物品之間的語義相似性。從最細粒度層出發,物品 I1 和物品 I3 是不相似的,分屬 “Mini Skirt” 和 “Long Skirt” 兩個類別。但從粗粒度層來看,它們共屬于“Skirt”這個類別,因此又是相似的。
針對已有研究的局限性,作者試圖通過挖掘多標簽數據的類別層次結構中所傳達的豐富語義信息,提高有監督的跨模態哈希方法的檢索性能。
模型
作者希望利用層次標簽信息來監督跨模態哈希映射的過程,使得到的哈希碼更多地保留數據在原始空間中的相似性關系。具體地,作者提出了一個新穎的有監督層次跨模態哈希模型 HiCHNet,統一了層次判別性學習和正則化跨模態哈希兩個主要過程,整體框架圖如下所示:
該框架由一個端到端的雙路徑神經網絡組成。其中,每條路徑分別代表一種模態。為了充分利用預先建立的標簽層次結構,作者首先使用一組“分層哈希表示”來表征數據的模態特征,這些表示對應于不同粒度的類別。
基于此,作者一方面通過在每一層哈希表示上進行對應層類別的多分類操作,使不同層的哈希表示對于對應層次的類別更具有判別性;另一方面引入了層次正則化,以全面保留類別層次結構編碼的語義相似性關系。這樣,經過各層哈希碼串聯得到的目標哈希碼,同時保留了層次判別性和層次語義相似性。
符號表示
在具體介紹模型各個部分之前,作者列舉了在文章中使用的各符號的指代含義,如下表所示:
分層哈希表示
作者首先利用深度神經網絡來提取圖片和文本特征。對于圖片模態,采用 VGG-F 卷積神經網絡結構來提取圖片的原始特征。對于文本模態,設計全連接神經網絡,提取文本特征。在獲得了圖片和文本特征之后,為了充分利用類別層次結構來監督哈希映射的過程,作者設計了多個全連接層,分別對應層次類別標簽中的每一層。以圖片或文本表示作為輸入,得到圖片或文本的分層哈希表示,具體公式如下:
這種哈希表示是最終哈希碼的前身,通過如下符號函數,便可以得到二進制的層次哈希碼。
層次判別性學習
為了全面編碼類別層次結構中的語義相似信息,使獲得的層次哈希碼對于對應層次的類別更具有判別性。作者為兩種模態分別引入了 K 個多分類網絡。第 k 層分類任務以第 k 層哈希表示作為輸入,第 k 層的類別標簽作為真實標簽。以圖片模態為例,具體公式如下:
考慮到不同粒度的類別對判別性學習的貢獻可能不同,作者為每一層分別設置置信度系數。最后,利用負對數似然函數(交叉熵函數)為代價函數,得到如下公式:
其中,?是第 k 層標簽的置信度系數。
層次正則化跨模態哈希
在這一部分,作者采用層次正則化去保持不同模態之間的語義相似性。此外,作者還設置二值化懲罰函數來進一步增強哈希碼的學習,得到更加準確的哈希碼。
語義相似性保持
當數據從原始空間映射到漢明空間時,保持數據在原始空間中的語義相似關系是跨模態哈希關心的主要問題。為了實現這一點,作者根據數據在每一層上的類別關系,即在該層是否有相同的類別,建立了層次相似矩陣。層次相似矩陣的取值有 1 和 0 兩種情況,分別表征數據點在對應層上的相似和不相似關系。
為了更好地在漢明空間中保持這種關系,作者希望當層次相似矩陣值為 1 時,最小化實例哈希碼在該層上的漢明距離;當值為 0 時,則最大化。在模型的完整訓練過程中,哈希表示可以充當哈希碼的連續化代理表示。因此作者利用第 k 層的哈希表示的乘積來表明相應圖片和文本在第 k 層的語義相似性,通過最大似然函數實現相似關系的保持。經代數轉化,可以得到如下的目標函數:
此外,考慮到不同粒度的標簽在保持相似性關系時的重要性不同,作者在上述的目標函數中再一次引入了層次置信度系數。
二值化差異懲罰
在前面的語義相似性保持的過程中,使用哈希表示作為哈希碼的代理,進行了一系列的操作。除此之外,為了產生最優的哈希碼代理,作者進一步計算了哈希表示與哈希碼之間的二值化差異,公式如下:
綜上所述,對于層次正則化跨模態哈希部分,作者得出了如下的目標函數:
值得一提的是,為了更好地彌合不同模態之間的語義鴻溝,并提高跨模態哈希的性能,在訓練階段,對于兩種模態的數據,作者采用了統一的哈希碼進行表示,公式如下:
聯合模型與優化
在訓練時,作者將上述的層次判別性學習與正則化跨模態哈希結合起來同時訓練,得到最終的目標函數如下所示。其中,作者設置了一個非負平衡參數,調節上述兩部分在模型中的重要性。
以上就是模型的細節內容。
實驗
作者在兩個具有層次標簽的數據集 FashionVC 和 Ssense 上進行了實驗。其中,FashionVC 為現有公開的數據集,作者對其進行了預處理,使其符合實驗的要求,由 35 個層次類別標記,包含 19862 個圖片-文本對;Ssense 是本文作者從時尚平臺 Ssense 上爬取,經預處理獲得 15696 個圖片-文本對,該數據集由 32 個層次類別標記。關于數據集的統計信息如 Table 2 所示。
此外,作者采用 MAP 作為評價指標,針對兩個經典的跨模態檢索任務:使用文本檢索圖片數據庫與使用圖片檢索文本數據庫,與現有的一些經典跨模態哈希方法進行比較。其中,CCA、SCM-Or、SCM-Se、DCH 和 CDQ 屬于淺層學習方法,SSAH 和 DCMH 屬于深度學習方法。
1. 對于淺層學習方法,作者采用了兩種特征進行實驗,分別為 VGG-F 特征和 SIFT 特征。
大量實驗證明,作者提出的模型在跨模態檢索任務上具有一定的優越性。具體數值結果如下:
從上面兩個表格可以看出,在兩個數據集上,對于兩種檢索任務,作者所提出的模型的檢索性能優于基準方法,證明了使用層次標簽監督跨模態哈希訓練時的優越性。
2. 為了對實驗有更加深刻地理解,作者比較了 HiCHNet 與基準方法 DCMH 在兩個數據集上,針對不同粒度類別的文本檢索圖片性能,結果如下圖所示:
3. 為了觀察模型的兩個主要部分在模型訓練過程中發揮的重要性,作者對平衡參數 γ 進行了探究。將參數 γ 的值取 0.1 作為步長,從 0.1 變化到 1,觀察模型性能在數據集 Ssense 上的變化,結果如下圖 (a)?所示。
此外,作者將目標函數的兩部分中的層次置信度統一起來,取 0.1 作為步長,將 ρ1?和 τ1?的值從 0.1 同時變化到 0.9,觀察模型性能在數據集 Ssense 上的變化,結果如下圖 (b)?所示。從圖中可以發現,當 γ 值為 0.5,ρ1?和 τ1?的值為 0.2時,模型取得最優性能。
4. 為了更好地證明層次標簽的有效性,作者對所提出的模型進行了簡單的變形,即不再考慮層次,只保留最細粒度的類別對應的判別性學習和正則化跨模態哈希,命名為 HiCHNet-flat。并在數據集 FashionVC 上比較模型 HiCHNet 和 HiCHNet-flat 的性能,結果如下圖所示。從圖中可以清楚地看出,無論哈希碼長度設置為多少,HiCHNet 的性能始終優于 HiCHNet-flat,這再一次驗證了考慮標簽層次結構的必要性。
5. 上述實驗結果很清楚地表明了作者所提模型的優越性,為了得到更直觀的檢索結果,作者以文本作為查詢輸入,檢索圖片數據庫。考慮到實驗的全面性,作者采用了兩種實驗設置:1)在整個圖片集中檢索,和 2)隨機抽取 10 張涉及不同類別的圖片,其中包含 1 個正例圖片和 9 個負例圖片。
與基準方法 DCMH 作對比,列舉返回 Top-10 的排序結果,上述兩種設置的實驗結果分別如下圖所示。從第一個圖中可以看出,作者提出的模型不僅返回的不相似圖片(紅色框標出)較少,而且不相似的圖片被排在相對較后的位置。
此外,從第二個圖中可以看出,本文提出的 HiCHNet 返回的圖片列表與查詢文本更相關。同時,可以發現與查詢文本共享相同類別的層數越多的圖片的排名越靠前。例如,盡管類別“Sandals”“Sneakers”、“Boots”與類別“Loafers”屬于不同的細粒度類別,但由于它們擁有相同的粗粒度類別“Shoes”,因此,屬于類別“Sandals”“Sneakers”、“Boots”的圖片被排在類別“Eyewear”、“Backpack”、“Dress”和“Jeans”之前。
總結
針對跨模態哈希方法的研究,作者創新性地利用了數據類別標簽的層次性,提出了一種端到端的有監督層次跨模態哈希。通過分層監督,更好地在漢明空間中保留了數據在原始空間中的語義相似性關系。在跨模態哈希領域,這是一篇非常值得學習的文章。
參考文獻
[1] Dongqing Zhang and Wu-Jun Li. Large-Scale Supervised Multimodal Hashing with Semantic Correlation Maximization. In Proceedings of the Twenty Eighth AAAI Conference on Artificial Intelligence. 2177–2183. 2014.?
[2] Yue Cao, Mingsheng Long, Jianmin Wang, and Shichen Liu. Collective Deep Quantization for Efficient Cross-Modal Retrieval. In Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence. 3974–3980. 2017.
[3] Xing Xu, Fumin Shen, Yang Yang, Heng Tao Shen, and Xuelong Li. Learning Discriminative Binary Codes for Large-scale Cross-modal Retrieval. IEEE Transactions on Image Processing 26, 5, 2494–2507. 2017.
[4] Chao Li, Cheng Deng, Ning Li, Wei Liu, Xinbo Gao, and Dacheng Tao. Self-Supervised Adversarial Hashing Networks for Cross-Modal Retrieval. In IEEE Conference on Computer Vision and Pattern Recognition. 4242–4251. 2018.?
[5] Qing-Yuan Jiang and Wu-Jun Li. 2016. Deep Cross-Modal Hashing. Computing Research Repository abs/1602.02255. 2016.?
[6] Yunchao Gong and Svetlana Lazebnik. Iterative quantization: A procrustean approach to learning binary codes. In The 24th IEEE Conference on Computer Vision and Pattern Recognition. 817–824. 2011.
[7] Jingkuan Song, Yang Yang, Yi Yang, Zi Huang, and Heng Tao Shen. Intermedia Hashing for Large-scale Retrieval from Heterogeneous Data sources. In Proceedings of the ACM SIGMOD International Conference on Management of Data. 785–796. 2013.?
[8] Jile Zhou, Guiguang Ding, and Yuchen Guo. Latent Semantic Sparse Hashing for Cross-modal Similarity Search. In The 37th International ACM SIGIR Conference on Research and Development in Information Retrieval. 415–424. 2014.
[9] Zhou Yu, Fei Wu, Yi Yang, Qi Tian, Jiebo Luo, and Yueting Zhuang. Discriminative Coupled Dictionary Hashing for Fast Cross-media Retrieval. In The 37th International ACM SIGIR Conference on Research and Development in Information Retrieval. 395–404. 2014.
[10] Zijia Lin, Guiguang Ding, Jungong Han, and Jianmin Wang. Cross-View Retrieval via Probability-Based Semantics-Preserving Hashing. IEEE Transactions on Cybernetics 47, 12, 4342–4355. 2017.
關于作者
孫暢暢,山東大學計算機科學與技術專業在讀碩士研究生。2018 年取得山東大學計算機科學與技術專業學士學位。目前研究方向主要集中在信息檢索領域,主攻跨模態哈希技術的研究。2019 年,在國際頂級學術會議 SIGIR 上發表一篇長文。
宋雪萌,博士,山東大學計算機科學與技術學院助理教授。2016 年 10 月取得新加坡國立大學計算機科學系博士學位。此前,于 2012 年 7 月取得中國科學技術大學,電子工程與信息科學系學士學位。研究方向主要集中在信息檢索和社會網絡分析等領域。在國際權威期刊和國際頂級學術會議,包括 ACM SIGIR, IJCAI, AAAI, ACM MM, ACM Transactions on Information Systems 等發表相關論文 20 余篇。此外,參與編寫著作《Learning from Multiple Social Networks》與《Multimodal Learning towards Micro-Video Understanding》。擔任ACM TOIS, IEEE TIP, IEEE TMM, ICMR 和 SIGIR 等國際期刊和會議的審稿人。
馮福利,新加坡國立大學計算機科學系在讀博士。2015 年獲得北京航空航天大學計算機科學與工程學院的學士學位。他的研究興趣包括信息檢索,數據挖掘和多媒體處理,并在 SIGIR,WWW 和 MM 等多個頂級會議上發表了超過 10 篇相關論文。此外,他在貝葉斯個性化排名上的工作獲得了 WWW 2018 最佳海報獎。他還曾擔任 SIGIR,ACL,KDD,IJCAI,AAAI,WSDM 等幾屆頂級會議的 PC 成員和審稿人。
趙鑫,中國人民大學計算機副教授,博士生導師。研究領域為社交數據挖掘和自然語言處理,共發表國內外論文 70 余篇。所發表的學術論文取得了一定的關注度,據 Google Scholar 統計,已發表論文共計被引用 2800 余次。入選第二屆 CCF 青年人才發展計劃。擔任多個國際頂級期刊和學術會議評審以及組織工作。
聶禮強博士現任山東大學計算機科學與技術學院教授、博士生導師、山東省人工智能研究院院長。其于2009 年和2013 年分別從西安交通大學和新加坡國立大學獲得學士和博士學位。之后,在新加坡國立大學從事科研工作三年半。2016 年入選“齊魯青年學者”計劃和第十三批國家“青年千人”計劃。主持國家自然科學基金面上項目、重點項目、科技部重點研發課題、山東省杰出青年基金。主要研究興趣為多媒體檢索技術,近五年在國際CCF A類會議或ACM/IEEE匯刊發表論文百余篇、專著3部,Google Scholar引用5300余次,申請海內外專利30余項。擔任ICIMCS 2017 程序委員會主席和Information Science 編委;擔任CCF A類會議ACM MM 2018/2019領域主席;多次獲得國際榮譽,如SIGMM emerging leaders in 2018、SIGIR 2019 best paper honorable mention等。
主辦單位
點擊以下標題查看更多往期內容:?
?
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 下載論文
總結
以上是生活随笔為你收集整理的“玩转标签,发现层次的力量!”:跨模态哈希方法研究的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 哩怎么读?
- 下一篇: 计算未来轻沙龙 | 顶会论文相继放榜,N