CVPR2020论文解析:视频语义检索
CVPR2020論文解析:視頻語義檢索
Fine-grained Video-Text Retrieval with Hierarchical
Graph Reasoning
論文鏈接:https://arxiv.org/pdf/2003.00392.pdf
摘要
隨著視頻在網(wǎng)絡(luò)上的迅速出現(xiàn),視頻與文本的跨模式檢索越來越受到人們的關(guān)注。目前解決這個問題的主要方法是學(xué)習(xí)一個聯(lián)合嵌入空間來測量跨模態(tài)相似性。然而,簡單的聯(lián)合嵌入不足以表示復(fù)雜的視覺和文本細(xì)節(jié),如場景、對象、動作及其構(gòu)圖。為了改進(jìn)細(xì)粒度視頻文本檢索,提出了一種層次圖推理(HGR)模型,將視頻文本匹配分解為全局到局部的層次。具體來說,該模型將文本分解為層次語義圖,包括事件、動作、實體和跨層次關(guān)系的三個層次。利用基于注意的圖形推理生成層次化的文本嵌入,可以指導(dǎo)不同層次視頻表示的學(xué)習(xí)。HGR模型聚合來自不同視頻文本級別的匹配,以捕獲全局和本地詳細(xì)信息。在三個視頻文本數(shù)據(jù)集上的實驗結(jié)果證明了該模型的優(yōu)越性。這種分層分解還可以更好地跨數(shù)據(jù)集進(jìn)行泛化,并提高區(qū)分細(xì)粒度語義差異的能力。
Introduction
互聯(lián)網(wǎng)上如YouTube和TikTok等視頻的迅速出現(xiàn),給視頻內(nèi)容的準(zhǔn)確檢索帶來了巨大挑戰(zhàn)。傳統(tǒng)的檢索方法[2,3,11]主要是基于關(guān)鍵字搜索,其中關(guān)鍵字預(yù)先定義并自動或手動分配給視頻。然而,由于關(guān)鍵詞是有限的和非結(jié)構(gòu)化的,檢索各種不同的內(nèi)容是困難的,例如,在基于關(guān)鍵詞的視頻檢索系統(tǒng)中,準(zhǔn)確檢索主題為“白狗”追逐對象為“黑貓”的視頻幾乎是不可能的。為了解決基于關(guān)鍵詞的視頻檢索方法的局限性,越來越多的研究者開始關(guān)注使用自然語言文本進(jìn)行視頻檢索,這種文本比關(guān)鍵詞(也稱為跨模式視頻文本檢索)包含更豐富、更結(jié)構(gòu)化的細(xì)節(jié)。
在這項工作中,本文提出了一個層次圖推理(HGR)模型,它利用了上述全局和局部方法,彌補(bǔ)了它們的不足。如圖1所示,本文將視頻文本匹配分解為三個層次語義層,分別負(fù)責(zé)捕獲全局事件、局部動作和實體。在文本方面,全局事件由整個句子表示。動作用動詞表示,實體指名詞短語。不同的層次不是獨(dú)立的,它們之間的相互作用解釋了它們在事件中扮演的語義角色。因此,本文在文本中建立了一個跨層次的語義角色圖,并提出了一種基于注意力的圖形推理方法來捕捉這種交互。相應(yīng)地,視頻被編碼為與事件、動作和實體相關(guān)的層次嵌入,以區(qū)分視頻中的不同方面。在弱監(jiān)督條件下,本文通過注意機(jī)制在每個語義層對齊跨模態(tài)成分,以便于匹配。所有三個級別的匹配分?jǐn)?shù)聚合在一起,以增強(qiáng)細(xì)粒度的語義覆蓋。
這項工作的貢獻(xiàn)如下:
?本文提出了一個層次圖推理(HGR)模型,將視頻文本匹配分解為全局到局部的層次。它通過詳細(xì)的語義改進(jìn)了全局匹配,通過全局事件結(jié)構(gòu)改進(jìn)了局部匹配,從而實現(xiàn)了細(xì)粒度的視頻文本檢索。
?文本中的三個分離層次,如事件、動作和實體,通過基于注意力的圖形推理相互作用,并與相應(yīng)的視頻層次對齊。所有級別都有助于視頻文本匹配,以實現(xiàn)更好的語義覆蓋。 ?HGR模型在不同的視頻文本數(shù)據(jù)集上實現(xiàn)了更好的性能,在不可見數(shù)據(jù)集上實現(xiàn)了更好的泛化能力。本文還提出了一種新的二進(jìn)制選擇任務(wù),用以證明區(qū)分細(xì)粒度語義差異的能力。
- Related Works
Image-Text Matching
以往的圖像文本匹配研究大多將圖像和句子編碼為公共潛在空間中的固定維向量進(jìn)行相似性度量。Frome等人[8]提出了圖像和文字的聯(lián)合嵌入框架,并訓(xùn)練了具有對比排名損失的模型。Kirosetal[21]擴(kuò)展框架,將圖像和句子與CNN進(jìn)行匹配,對圖像進(jìn)行編碼,對句子進(jìn)行RNN。Faghrietal[6]通過hard負(fù)樣本數(shù)據(jù)改進(jìn)訓(xùn)練策略。為了豐富全球代表性,Huang等人
[17] 利用圖像嵌入技術(shù)通過圖像字幕來預(yù)測概念和順序。[9] 在多任務(wù)框架中進(jìn)一步融合圖像和標(biāo)題生成。然而,僅使用固定維向量很難涵蓋復(fù)雜的語義。因此,Karpathy等人
[19] 將圖像和句子分解為多個區(qū)域和單詞,并提出使用最大對齊來計算全局匹配相似度。Lee等人
[22]通過疊加交叉注意改善對齊。吳等人
[40]將句子分解為對象、屬性、關(guān)系和句子,但是,它們不考慮不同層次之間的交互,并且分解對于關(guān)注動作和事件的視頻描述可能不是最佳的。
Video-Text Matching
雖然視頻文本匹配與圖像文本匹配具有一定的相似性,但由于視頻具有更復(fù)雜的多模性和時空演化特性,使得視頻文本匹配任務(wù)更具挑戰(zhàn)性。Mithunetal [27]在視頻中使用來自圖像、運(yùn)動、音頻模式的多模態(tài)提示。Liu等人
[26]進(jìn)一步利用可從視頻中提取的所有模式,例如用于視頻編碼的語音內(nèi)容和場景文本。為了對序列視頻和文本進(jìn)行編碼,Dongetal[5]利用mean pooling、biGRU和CNN三個分支對它們進(jìn)行編碼。Yu等人
[43]提出了一種用于視頻和文本序列交互的聯(lián)合序列融合模型。Songet等人
[31]針對多義詞問題,對視頻和文本采用多種多樣的表示。與我們最相似的工作是Wray等人
[39],它將動作短語分為不同的詞類,如動詞和名詞,用于細(xì)粒度的動作檢索。然而,句子比動作短語更復(fù)雜。因此,本文將一個句子分解為一個層次語義圖,并在不同層次上整合視頻文本匹配。
Graph-based Reasoning
圖卷積網(wǎng)絡(luò)(GCN)[20]是為圖數(shù)據(jù)識別而提出的。對于每個節(jié)點,它在其鄰域上使用卷積作為輸出。圖注意網(wǎng)絡(luò)[33]被進(jìn)一步引入到動態(tài)地關(guān)注鄰域的特征,以便用不同的邊緣類型來建模圖,關(guān)系GCN在[29]中被提出,它為每種關(guān)系類型學(xué)習(xí)特定的上下文轉(zhuǎn)換。基于圖的推理在動作識別[32,36]、場景圖生成[42]、引用表達(dá)式接地[23,35]、視覺問答[16,24]等計算機(jī)視覺任務(wù)中有著廣泛的應(yīng)用,其中大多數(shù)[16,23,24,35,42]在圖像區(qū)域上應(yīng)用圖推理來學(xué)習(xí)它們之間的關(guān)系。在這項工作中,我們著重于對視頻描述的層次圖結(jié)構(gòu)進(jìn)行推理,以實現(xiàn)細(xì)粒度視頻文本匹配。
- Hierarchical Graph Reasoning Mode
圖2顯示了擬議的HGR模型的概述,該模型由三個模塊組成:
1)
分層文本編碼(第3.1節(jié)),從文本中構(gòu)造語義角色圖,并應(yīng)用圖形推理獲得分層文本表示;
2)
分層視頻編碼(第3.2節(jié))將視頻映射到相應(yīng)的多級表示;
3)視頻文本匹配(第3.3節(jié)),該視頻文本匹配在不同的級別上聚合全局和局部匹配,以計算整體的跨模態(tài)相似性。
3.1. Hierarchical Textual Encoding
視頻描述自然包含層次結(jié)構(gòu)。整個句子描述了視頻中的全局事件,視頻中的全局事件由多個操作組成,每個操作由不同的實體組成,作為其參數(shù),如操作的主體和病人。這種全局到局部的結(jié)構(gòu)有利于準(zhǔn)確、全面地理解視頻描述的語義。因此,在本節(jié)中,我們將介紹如何從全局到局部拓?fù)渲械囊曨l描述獲取分層文本表示。
Semantic Role Graph Structure
給出了一個由N個詞{c1,···,cN}組成的視頻描述C,我們認(rèn)為C是層次圖中的全局事件節(jié)點。這樣的語義角色關(guān)系對于理解事件結(jié)構(gòu)很重要,例如,“狗追貓”與“貓追狗”明顯不同,后者只改變了兩個實體的語義角色。在圖2的左側(cè),我們給出了一個構(gòu)造圖的示例。
Initial Graph Node Representation
我們將每個節(jié)點的語義嵌入到一個密集向量中作為初始化。對于全局事件節(jié)點,我們旨在總結(jié)句子中描述的顯著事件。因此,我們首先利用雙向LSTM(bilstm)[13]生成一系列上下文感知單詞嵌入{w1,····,wN},如下所示:
其中,Wc是字嵌入矩陣,在兩個LSTMs中是參數(shù)。然后,我們通過關(guān)注機(jī)制對單詞嵌入進(jìn)行平均,該機(jī)制將句子中的重要單詞作為全局事件嵌入ge:
Attention-based Graph Reasoning
在構(gòu)造的圖中,不同層次的連接不僅解釋了局部節(jié)點如何構(gòu)成全局事件,而且能夠減少每個節(jié)點的模糊性。例如,圖2中的實體“egg”可以在沒有上下文的情況下有不同的外觀,但是動作“break”的上下文限制了它的語義,因此它應(yīng)該與“break egg”的視覺外觀具有高度的相似性,而不是“round egg”。因此,我們建議對圖中的交互進(jìn)行推理,以獲得層次化的文本表示。
3.2.Hierarchical Video Encoding
視頻還包含多個方面,如對象、動作和事件。然而,直接將視頻分解成層次結(jié)構(gòu)是一個挑戰(zhàn),因為文本需要時間分割、目標(biāo)檢測、跟蹤等。因此,我們構(gòu)建了三個獨(dú)立的視頻嵌入來關(guān)注視頻中不同層次的方面。給定視頻V作為幀序列{f1,····,fM},我們利用不同的變換權(quán)重
將視頻編碼成三個層次的嵌入:
作為全局事件層次,我們使用類似于等式(4)的注意機(jī)制來獲得一個全局向量,將視頻中的顯著事件表示為ve。對于動作和實體級,視頻表示分別是幀級特征va={va,1,···,va,M}和vo={vo,1,····,vo,M}的序列。這些特征將被發(fā)送到下面的匹配模塊,與它們在不同層次上對應(yīng)的文本特征進(jìn)行匹配,從而保證通過端到端的學(xué)習(xí)方式來學(xué)習(xí)不同的變換權(quán)重以聚焦不同層次的視頻信息。
3.3
Video-Text Matching
為了同時覆蓋局部語義和全局語義以匹配視頻和文本,我們從三個層次對結(jié)果進(jìn)行了聚合,以獲得整體的跨模態(tài)相似度。全局匹配。在全局事件級,視頻和文本被編碼成全局向量,通過注意機(jī)制捕獲顯著的事件語義。因此,我們簡單地利用余弦相似度
來度量全局視頻和文本內(nèi)容的跨模態(tài)相似度。全局匹配得分為se=cos(ve,ce)。本地注意力匹配。在操作和實體級別,視頻和文本中有多個本地組件。因此,需要學(xué)習(xí)跨模態(tài)局部構(gòu)件之間的對齊來計算整體匹配得分。
局部注意匹配不需要任何局部文本視頻接地,可以從弱監(jiān)督的全局視頻文本對中學(xué)習(xí)。訓(xùn)練和推理。我們將各級跨模態(tài)相似度的平均值作為最終視頻文本相似度:
表1將提出的HGR模型與MSR-VTT測試集上的SOTA方法進(jìn)行了比較。為了公平比較,所有的模型都使用相同的視頻特性。在MSR-VTT數(shù)據(jù)集上,我們的模型在不同的評估指標(biāo)上實現(xiàn)了最佳性能。
- Experiments
表2顯示了Youtube2Text數(shù)據(jù)集的檢索結(jié)果。VSE++[6]提出的hard負(fù)性訓(xùn)練策略使模型能夠更有效地學(xué)習(xí)視覺語義匹配,提高了模型對未知數(shù)據(jù)的泛化能力。
為了證明我們的方法對不同數(shù)據(jù)集和特性的健壯性,我們在表3中進(jìn)一步提供了TGIF和VATEX數(shù)據(jù)集的定量結(jié)果。這些模型在TGIF數(shù)據(jù)集上使用Resnet152圖像特征,在VATEX數(shù)據(jù)集上使用I3D視頻特征。
為了研究我們提出的模型中不同成分的貢獻(xiàn),我們對表4中的MSR-VTT數(shù)據(jù)集進(jìn)行了消融研究。表4中的第1行取代了圖推理中的圖注意機(jī)制,簡單地利用了鄰域節(jié)點上的平均池,在R@10度量上的檢索性能分別比第4行的完整模型在文本到視頻和視頻到文本檢索上降低了0.9和1.7。
在圖3中,我們展示了一個學(xué)習(xí)的模式,在不同層次的圖推理中,動作節(jié)點如何與鄰居節(jié)點交互,這與語義角色密切相關(guān)。
由于我們的視頻文本相似性是從不同的級別聚合的,在表5中,我們對視頻文本檢索的每個級別的性能進(jìn)行了分解。我們可以看到,全局事件級別單獨(dú)在rsum度量上表現(xiàn)最好,因為局部級別本身可能不包含整個事件結(jié)構(gòu)。
表6顯示了不同二進(jìn)制選擇任務(wù)的結(jié)果。在角色轉(zhuǎn)換任務(wù)中,我們的模型優(yōu)于VSE++模型,絕對值為4.87%,但略低于雙編碼模型。
大多數(shù)成功的跨模式視頻文本檢索系統(tǒng)都是基于聯(lián)合嵌入的方法。然而,簡單的嵌入不足以捕獲復(fù)雜視頻和文本中的細(xì)粒度語義。因此,本文提出了一個層次圖推理(HGR)模型,將視頻和文本分解為事件、動作和實體等層次語義層。然后通過基于注意力的圖形推理生成層次化的文本嵌入,并將文本與不同層次的視頻對齊。總體的跨模態(tài)匹配是通過聚合來自不同層次的匹配來生成的。在三個視頻文本數(shù)據(jù)集上的實驗結(jié)果證明了該模型的優(yōu)越性。提出的HGR模型在不可見數(shù)據(jù)集上也能獲得更好的泛化性能,并且能夠區(qū)分細(xì)粒度的語義差異。
在圖5中,我們還提供了視頻到文本檢索的定性結(jié)果,這證明了我們的HGR模型在雙向跨模式檢索中的有效性。
- Conclusion
大多數(shù)成功的跨模式視頻文本檢索系統(tǒng)都是基于聯(lián)合嵌入的方法。然而,簡單的嵌入不足以捕獲復(fù)雜視頻和文本中的細(xì)粒度語義。因此,本文提出了一個層次圖推理(HGR)模型,將視頻和文本分解為事件、動作和實體等層次語義層。然后通過基于注意力的圖形推理生成層次化的文本嵌入,并將文本與不同層次的視頻對齊。總體的跨模態(tài)匹配是通過聚合來自不同層次的匹配來生成的。在三個視頻文本數(shù)據(jù)集上的實驗結(jié)果證明了該模型的優(yōu)越性。提出的HGR模型在不可見數(shù)據(jù)集上也能獲得更好的泛化性能,并且能夠區(qū)分細(xì)粒度的語義差異。
總結(jié)
以上是生活随笔為你收集整理的CVPR2020论文解析:视频语义检索的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 视觉SLAM技术应用
- 下一篇: CVPR2020论文解读:手绘草图卷积网