CVPR 2022 Oral | 视频文本预训练新SOTA!港大腾讯推出基于多项选择题的借口任务...
點擊下方卡片,關注“CVer”公眾號
AI/CV重磅干貨,第一時間送達
點擊進入—>?CV?微信技術交流群
轉(zhuǎn)載自:機器之心 | 作者:香港大學、騰訊ARC Lab
本文提出了一個全新的借口任務用于視頻文本預訓練,叫做多項選擇題(MCQ)。通過訓練輔助的BridgeFormer根據(jù)視頻內(nèi)容回答文本構成的選擇題,來學習細粒度的視頻和文本特征,并實現(xiàn)下游高效的檢索。該研究已被 CVPR 2022 收錄為 Oral。
用于文本視頻檢索的多模態(tài)預訓練工作主要采用兩類方法:“雙流”法訓練兩個單獨的編碼器來約束視頻級別和語句級別的特征,忽略了各自模態(tài)的局部特征和模態(tài)間的交互;“單流”法把視頻和文本聯(lián)結(jié)作為聯(lián)合編碼器的輸入來進行模態(tài)間的融合,導致下游檢索非常低效。
本文提出一個全新的帶有參數(shù)化模塊的借口任務(pretext task),叫做“多項選擇題”(MCQ),通過訓練 BridgeFormer 根據(jù)視頻內(nèi)容回答文本構成的選擇題,來實現(xiàn)細粒度的視頻和文本交互,并在下游時移除輔助的 BridgeFormer,以保證高效的檢索效率。
BridgeFormer: Bridging Video-text Retrieval with Multiple Choice Questions
論文地址:https://arxiv.org/abs/2201.04850?
代碼地址:https://github.com/TencentARC/MCQ
1. 背景
用于視頻文本檢索的多模態(tài)模型,需要理解視頻內(nèi)容、文本語義、以及視頻和文本之間的關系。現(xiàn)有的視頻文本預訓練工作可以分為兩大類。
第一類 “雙流” 法如下圖(a)所示,訓練兩個單獨的編碼器來分別獲取視頻級別和語句級別的特征,利用對比學習(contrastive learning)來優(yōu)化特征。這一方法可以實現(xiàn)高效的下游檢索,因為在檢索時只需要用點積來計算視頻和文本特征的相似度。但這種方法因為僅僅約束兩個模態(tài)的最終特征,忽略了每個模態(tài)自身的局部信息,以及視頻和文本之間細粒度的關聯(lián)。
第二類 “單流法” 如下圖(b)所示,將視頻和文本聯(lián)結(jié)作為聯(lián)合編碼器的輸入來進行模態(tài)間的融合,并訓練一個分類器來判別視頻和文本是否匹配。這一做法可以在局部的視頻和文本特征之間建立關聯(lián),但是它在下游檢索時非常低效,因為文本和每一個候選視頻,都需要被聯(lián)結(jié)送入模型來獲取相似度。
本文的出發(fā)點是希望集上述兩大類方法的優(yōu)點,即學習細粒度的視頻和文本特征的同時,實現(xiàn)下游高效的檢索。
具體來說,如上圖(c)所示,基于雙編碼器的結(jié)構,該研究進一步設計一個參數(shù)化模塊 BridgeFormer 作為視頻和文本局部特征的紐帶。該研究提出一個新的借口任務來約束 BridgeFormer,由于 BridgeFormer 聯(lián)結(jié)了視頻和文本的每一層特征,對 BridgeFormer 的約束進而會優(yōu)化視頻和文本的特征。輔助的 BridgeFormer 只用于預訓練,在下游檢索時被移除,從而保證了高效的雙編碼器結(jié)構可用于檢索。
2. 啟發(fā)
給定一個視頻和它對應的文本描述,該研究觀察到文本里的名詞和動詞短語包含豐富的語義信息。
如下圖所示,該視頻的文本描述為:“一個穿著短褲,戴著帽子的女孩正在綠草地上跳舞”。這其中,名詞短語 “短褲” 和“綠草地”對應著視頻里的空間局部物體,動詞短語 “跳舞” 則可以反映視頻里女孩的時序移動。因此,該研究通過抹去文本里的名詞和動詞短語,來分別構造名詞問題和動詞問題,那么正確的答案自然是被抹去的短語自身。比如當抹去名詞短語“綠草地”,就構成了名詞問題“一個穿著短褲,戴著帽子的女孩正在哪里跳舞”,答案就是“綠草地”。同理當抹去動詞短語“跳舞”,就構成了動詞問題“一個穿著短褲,戴著帽子的女孩正在綠草地上做什么”,答案就是“跳舞”。
該研究提出一個帶有參數(shù)化模塊 BridgeFormer 的借口任務叫做多項選擇題(MCQ),訓練 BridgeFormer 通過求助視頻特征,回答由文本特征構成的選擇題,從而實現(xiàn)細粒度的視頻和文本交互。在下游檢索時移除 BridgeFormer,來保證高效的檢索效率。
3. 方法
如下圖所示,該研究的方法包含一個視頻編碼器 VideoFormer,用來從原始的視頻幀提取視頻特征;一個文本編碼器 TextFormer,用來從自然語言提取文本特征。該研究通過抹去文本描述里的名詞短語或動詞短語,來分別構造名詞問題和動詞問題。以對比學習的形式,訓練 BridgeFormer 通過求助 VideoFormer 提取到的局部視頻特征,從多個選項里挑選出正確的答案。這里,多個選項由一個訓練批次里所有被抹去的短語構成。
這一輔助的預訓練目標會促使 VideoFormer 提取視頻里準確的空間內(nèi)容,使得 BridgeFormer 能夠回答出名詞問題,并捕獲到視頻里物體的時序移動,使得 BridgeFormer 能夠回答出動詞問題。這樣的訓練機制使得 VideoFormer 更能感知視頻里的局部物體和時序動態(tài)。視頻和文本局部特征的關聯(lián)也通過問題和回答這樣的形式得到了有效的建立。由于 BridgeFormer 聯(lián)結(jié)了視頻和文本的每一層特征,對 BridgeFormer 的約束就會進而優(yōu)化視頻和文本的特征。因此輔助的 BridgeFormer 只用于預訓練,在下游檢索時可以被移除,從而保留高效的雙編碼器結(jié)構。
4. 預訓練流程
如下圖所示,該研究預訓練流程包含三個部分,來分別優(yōu)化三個統(tǒng)一的對比學習(contrastive learning)形式的預訓練目標:
1. 拉近視頻和文本正樣本對特征間的距離,并拉遠負樣本對特征間的距離(一個視頻和它對應的文本描述被視為正樣本對,否則就是負樣本對)。
2. 訓練 BridgeFormer 回答名詞問題,也就是拉近 BridgeFormer 輸出的名詞回答特征和 TextFormer 輸出的正確答案的名詞特征間的距離,并拉遠名詞回答特征和其他名詞特征間的距離。
3. 訓練 BridgeFormer 回答動詞問題,也就是拉近 BridgeFormer 輸出的動詞回答特征和 TextFormer 輸出的正確答案的動詞特征間的距離,并拉遠動詞回答特征和其他動詞特征間的距離。
這里該研究使用對比學習來優(yōu)化多項選擇題形式的預訓練目標,而不是采用傳統(tǒng)的“masked word prediction”,也就是隨機 mask 一句話里的一些單詞,訓練模型預測出被 mask 的單詞。采用本文的這種做法有如下三個優(yōu)勢:
傳統(tǒng)的 “masked word prediction” 約束模型預測出被 mask 的單詞,會使得模型專注于解碼 low-level 的單詞本身,破壞了對模態(tài)間 high-level 的特征表達的學習。相比之下,該研究的 MCQ 以對比學習的形式拉近 BridgeFormer 輸出的回答特征和 TextFormer 輸出的答案特征間的距離,從而使模型專注于學習模態(tài)間 high-level 的語義信息。
該研究抹除文本里包含明確語義信息的動詞和名詞短語來構造有意義的問題,而傳統(tǒng)的方法只是隨機 mask 一些可能沒有任何語義信息的單詞。
由于問題的特征和答案的特征都是由 TextFormer 得到,這一做法可以視為對文本的 data augmentation,從而增強 TextFormer 對自然語言的語義理解能力。
消融實驗也顯示,相比于傳統(tǒng)的“masked word prediction”,該研究的對比學習形式的借口任務 MCQ 在下游測評取得了更好的實驗結(jié)果。
5. 模型結(jié)構
如下圖所示,該研究的模型包含一個視頻編碼器 VideoFormer,一個文本編碼器 TextFormer,和一個輔助的編碼器 BridgeFormer。每一個編碼器由一系列 transformer 模塊構成。TextFormer 輸出的每一層問題文本特征被視為 query,VideoFormer 輸出的每一層視頻特征被視為 key 和 value,被送入 BridgeFormer 相應層來執(zhí)行跨模態(tài)的注意力機制,以獲得回答特征。
6. 可視化
6.1 BridgeFormer 如何回答名詞問題
下圖為可視化名詞問題特征和視頻特征之間的注意力。在第二列和第五列,文本里藍色的名詞短語被抹除,構成了名詞問題 Q1。在第三列和第六列,文本里綠色的名詞短語被抹除,構成了名詞問題 Q2。在第一個例子里,當 “一對老年夫妻” 被抹去,構成問題 “誰在喝咖啡”,BridgeFormer 專注于描繪人物面貌的視頻特征上。而當“一盤面包” 被抹去,構成問題 “在他們面前的桌子上有什么”,BridgeFormer 把注意力集中在桌子上的物體區(qū)域。在第四個例子里,當“足球” 被抹去,構成問題 “家長和小孩在玩什么”,BridgeFormer 專注于可以和動詞“玩” 構成關聯(lián)的物體特征上。而當 “鄉(xiāng)間草地” 被抹去,構成問題“家長和小孩在哪里踢足球”,BridgeFormer 把注意力放在了視頻背景特征上。我們可以觀察到,BridgeFormer 關注具有特定物體信息的視頻區(qū)域來回答名詞問題,這表明了 VideoFormer 可以從視頻中提取準確的空間內(nèi)容,并且 TextFormer 可以理解問題的文本語義。
6.2 BridgeFormer 如何回答動詞問題
下圖為可視化動詞問題特征和視頻特征之間的注意力。下圖依次展示了一個視頻里采樣得到的三幀。文本里藍色的動詞短語被抹除,構成了動詞問題。在左邊的例子里,當 “切” 這個動詞被抹去,構成問題 “一雙手正在如何操作比薩餅”,BridgeFormer 關注比薩餅上餐具的移動。在右邊的例子里,當“喝” 這個動詞被抹去,構成問題“站在河邊的男人正在怎么操作熱茶”,BridgeFormer 關注握著杯子的手的移動。我們可以觀察到,BridgeFormer 集中注意力在物體的移動上來回答動詞問題,這表明 VideoFormer 捕獲到了視頻的時序動態(tài)。
7. 實驗
7.1 預訓練數(shù)據(jù)
該研究在圖像數(shù)據(jù)集 Google Conceptual Captions 和視頻數(shù)據(jù)集 WebVid-2M 上進行預訓練,前者包含 3.3M 的圖像 - 文本對,后者包含 2.5M 的視頻 - 文本對??紤]到計算量,該研究沒有使用大規(guī)模的 HowTo100M 數(shù)據(jù)集進行預訓練。不過,該研究用 HowTo100M 來進行大規(guī)模的文本到視頻的 zero-shot 檢索測評。
7.2 下游任務
文本到視頻的檢索
該研究在 MSR-VTT、MSVD、LSMDC、DiDeMo 和 HowTo100M 上進行測評。采用兩種測評準則,包括 zero-shot 和 fine-tune。
動作識別
該研究在 HMDB51 和 UCF101 上進行測評。采用三種測評準則,包括 linear、fine-tune 和 zero-shot。其中 zero-shot 的動作識別可以被視為是視頻到文本的檢索,其中動作類別的名稱被視為是文本描述。
7.3 實驗結(jié)果
在 MSR-VTT 數(shù)據(jù)集上,文本到視頻的檢索結(jié)果如下表格所示。表格上面的行顯示了 zero-shot 測評結(jié)果,下面的行顯示了 fine-tune 的測評結(jié)果??梢钥吹奖疚姆椒ㄏ啾扔谥暗姆椒?#xff0c;在兩種測評基準下都有了大幅度的提升。該研究所用模型直接以原始視頻幀作為輸入,不依賴任何預先提取的視頻特征。
在 MSVD、LSMDC、DiDeMo 上,文本到視頻的檢索結(jié)果如下表格所示。本文模型同樣在 zero-shot 和 fine-tune 的測評基準下,都取得了最好的結(jié)果。
該研究進一步使用 CLIP 的權重來初始化本文模型,在 MSR-VTT、MSVD 和 LSMDC 上,文本到視頻的檢索結(jié)果如下表格所示。該研究的借口任務 MCQ 同樣可以提升基于 CLIP 的視頻文本預訓練的性能。
在 HMDB51 和 UCF101 上測評 zero-shot 動作識別結(jié)果如下圖(a)所示,本文方法明顯超出了 baseline。該研究進一步通過測評 linear 動作識別來衡量模型的單模態(tài)視頻表征能力。如下圖(b)所示,本文方法在時長相對較短的視頻數(shù)據(jù)上進行預訓練,取得了理想的結(jié)果。這顯示了該研究的借口任務 MCQ 可以通過對文本語義的有效利用,增強視頻的表征學習。
更多的實驗結(jié)果和消融實驗,參見論文。
8. 總結(jié)
本文提出了一個全新的借口任務用于視頻文本預訓練,叫做多項選擇題(MCQ)。這一借口任務加強了局部視頻和文本特征的細粒度的關聯(lián),并且實現(xiàn)了高效的下游檢索。一個參數(shù)化模塊 BridgeFormer 被訓練通過借助視頻特征,回答由文本特征構成的選擇題,并且在下游任務時可以被移除。本文模型在文本到視頻檢索和零樣本動作識別多個測評基準的結(jié)果,顯示了 MCQ 這一借口任務的有效性。
點擊進入—>?CV?微信技術交流群
ICCV和CVPR 2021論文和代碼下載
后臺回復:CVPR2021,即可下載CVPR 2021論文和代碼開源的論文合集
后臺回復:ICCV2021,即可下載ICCV?2021論文和代碼開源的論文合集
后臺回復:Transformer綜述,即可下載最新的3篇Transformer綜述PDF
目標檢測和Transformer交流群成立 掃描下方二維碼,或者添加微信:CVer6666,即可添加CVer小助手微信,便可申請加入CVer-目標檢測或者Transformer?微信交流群。另外其他垂直方向已涵蓋:目標檢測、圖像分割、目標跟蹤、人臉檢測&識別、OCR、姿態(tài)估計、超分辨率、SLAM、醫(yī)療影像、Re-ID、GAN、NAS、深度估計、自動駕駛、強化學習、車道線檢測、模型剪枝&壓縮、去噪、去霧、去雨、風格遷移、遙感圖像、行為識別、視頻理解、圖像融合、圖像檢索、論文投稿&交流、PyTorch、TensorFlow和Transformer等。 一定要備注:研究方向+地點+學校/公司+昵稱(如目標檢測或者Transformer+上海+上交+卡卡),根據(jù)格式備注,可更快被通過且邀請進群▲掃碼或加微信: CVer6666,進交流群 CVer學術交流群(知識星球)來了!想要了解最新最快最好的CV/DL/ML論文速遞、優(yōu)質(zhì)開源項目、學習教程和實戰(zhàn)訓練等資料,歡迎掃描下方二維碼,加入CVer學術交流群,已匯集數(shù)千人!▲掃碼進群 ▲點擊上方卡片,關注CVer公眾號整理不易,請點贊和在看
? ? ? ? ? ? ? ?總結(jié)
以上是生活随笔為你收集整理的CVPR 2022 Oral | 视频文本预训练新SOTA!港大腾讯推出基于多项选择题的借口任务...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ECNU203.2333进制
- 下一篇: 机器人足球