CVPR 2020 | ActBERT: 自监督多模态视频文字学习
?PaperWeekly ·?作者|朱霖潮
單位|悉尼科技大學(xué)
研究方向|視頻理解
自監(jiān)督特征學(xué)習(xí)近年來(lái)已有如火如荼的發(fā)展,并從單模態(tài)的自監(jiān)督學(xué)習(xí),如圖片自監(jiān)督特征學(xué)習(xí),視頻自監(jiān)督特征學(xué)習(xí),蔓延到多模態(tài),利用圖片與文字或者視頻與文字的關(guān)聯(lián)性進(jìn)行特征學(xué)習(xí)。?
利用圖片與文字關(guān)聯(lián)性進(jìn)行自監(jiān)督學(xué)習(xí)已有非常多優(yōu)秀的工作,如 Vilbert, LXMERT, VisualBERT, VLBERT, UNITER, Unified VLP 等等。這類工作的數(shù)據(jù)源一般是 Conceptual Captions 或 SBU Captions,且圖片文字對(duì)往往是從網(wǎng)站中已有的數(shù)據(jù)自動(dòng)抓取得到,無(wú)須額外的標(biāo)注成本。通過(guò)圖片與文字無(wú)監(jiān)督的關(guān)聯(lián),這些模型在許多下游任務(wù)已取得明顯提升。?
視頻與文字自監(jiān)督學(xué)習(xí)在最近也有一定的進(jìn)展。這種自監(jiān)督學(xué)習(xí)方法對(duì)下游任務(wù)也有顯著提升。相比于圖片與文字,視頻與文字自監(jiān)督學(xué)習(xí)或許可以在更多應(yīng)用場(chǎng)景得到使用,如最近比較火的短視頻推薦,或細(xì)粒度動(dòng)作理解等。
論文標(biāo)題:ActBERT: Learning Global-Local Video-Text Representations
論文鏈接:https://openaccess.thecvf.com/content_CVPR_2020/papers/Zhu_ActBERT_Learning_Global-Local_Video-Text_Representations_CVPR_2020_paper.pdf
問(wèn)題背景
與圖片文字類似,視頻與文字自監(jiān)督學(xué)習(xí)也需要大量的關(guān)聯(lián)數(shù)據(jù),其中一種比較好的數(shù)據(jù)源就是教學(xué)視頻(instructional videos)。在教學(xué)視頻中,視頻創(chuàng)作者往往在講述一個(gè)具體任務(wù)的完成過(guò)程,其中會(huì)詳細(xì)描述所見(jiàn)的視頻內(nèi)容。
舉個(gè)例子,在教做菜的視頻中,視頻創(chuàng)作者會(huì)描述,“開(kāi)始切胡蘿卜”,往往人物也是在正進(jìn)行“切胡蘿卜”的動(dòng)作。這種天然的視覺(jué)對(duì)應(yīng)關(guān)系,是進(jìn)行視頻文字自監(jiān)督學(xué)習(xí)的重要要素。其中文字描述可以通過(guò)自動(dòng)語(yǔ)音識(shí)別技術(shù)(ASR)從視頻中或從創(chuàng)作者上傳的字幕中提取文字。這樣成對(duì)的視頻文字?jǐn)?shù)據(jù)就產(chǎn)生了。?
教學(xué)視頻的另外一個(gè)優(yōu)點(diǎn)就是來(lái)源豐富,包括做菜,修理日常用品,寵物護(hù)理,個(gè)人愛(ài)好等等。這種多種多樣的人類日常生活數(shù)據(jù),有助于協(xié)助很多人類日常行為或社交行為的理解。?
ICCV 2019 上的一篇論文 HowTo100M,收集了一百二十多萬(wàn)個(gè)的視頻,并從中切出了 1 億 3 千多萬(wàn)的視頻片段進(jìn)行無(wú)監(jiān)督或自監(jiān)督的視頻文字關(guān)聯(lián)。該論文使用一個(gè)非常簡(jiǎn)單的排序損失函數(shù)進(jìn)行視頻文字建模,但這種方式學(xué)習(xí)到的特征在許多下游任務(wù)上都能顯著提升性能??梢?jiàn)在大規(guī)模數(shù)據(jù)進(jìn)行視頻文字建模是提升具體任務(wù)的一種比較好的思路。
ActBERT
同樣在 ICCV 2019 上,VideoBERT 率先使用 BERT 的訓(xùn)練方式進(jìn)行視頻與文本的關(guān)聯(lián)學(xué)習(xí),并將視頻幀作為視覺(jué)單詞輸入 BERT 網(wǎng)絡(luò)。為了解決視覺(jué)特征無(wú)法做分類預(yù)測(cè)的問(wèn)題,VideoBERT 使用了 hierachical k-means 的方法將視覺(jué)特征進(jìn)行離散化,這樣每個(gè)數(shù)據(jù)特征都對(duì)應(yīng)一個(gè)離散的視覺(jué)中心。
然而一個(gè)視覺(jué)中心可能無(wú)法很好的同時(shí)描述局部和全局視覺(jué)內(nèi)容,比如表示視頻片段的動(dòng)作和局部交互的物體。從而使得該方法無(wú)法進(jìn)行更好地視頻與文字匹配,比如文字”steak“與其視頻內(nèi)容的關(guān)聯(lián)。?
為了解決上述問(wèn)題,即同時(shí)進(jìn)行文字與動(dòng)作和局部區(qū)域的視覺(jué)輸入關(guān)聯(lián),ActBERT 提出了一個(gè)簡(jiǎn)單的思路,就是在輸入層同時(shí)加入全局動(dòng)作特征與局部區(qū)域特征。
▲ 在輸入層,引入動(dòng)作特征與局部區(qū)域特征
為了得到動(dòng)作特征,首先從源數(shù)據(jù)集文本中提取動(dòng)詞,并構(gòu)建出一個(gè)新的動(dòng)詞詞匯表。在該詞匯表下,將視頻片段作為輸入,訓(xùn)練一個(gè) 3D 的卷積網(wǎng)絡(luò)。最后用這個(gè) 3D 網(wǎng)絡(luò)的提取到的特征作為動(dòng)作特征輸入。而該網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果將是 ActBERT 分類預(yù)測(cè)時(shí)所對(duì)應(yīng)的標(biāo)簽。?
為了得到局部特征,ActBERT 使用在 COCO上 預(yù)訓(xùn)練的 Faster R-CNN 在視頻幀上產(chǎn)生物體候選框,每幀僅保留部分候選框以減少冗余,這些候選框?qū)?yīng)的特征將作為網(wǎng)絡(luò)輸入,而候選框在 COCO 上的類別分布將作為 ActBERT 預(yù)測(cè)類別。
ActBERT對(duì)三種模態(tài)的建模方式
剛剛講到,ActBERT 有三種模態(tài)輸入,即全局動(dòng)作,局部區(qū)域和語(yǔ)言描述。
ActBERT 設(shè)計(jì)了一種全新的糾纏編碼模塊從三個(gè)來(lái)源進(jìn)行多模態(tài)特征學(xué)習(xí),以增強(qiáng)兩個(gè)視覺(jué)輸入和語(yǔ)言之間的互動(dòng)功能。該糾纏編碼模塊,在全局動(dòng)作信息的指導(dǎo)下,對(duì)語(yǔ)言模型注入了視覺(jué)信息,并將語(yǔ)言信息整合到視覺(jué)模型中。糾纏編碼器動(dòng)態(tài)選擇合適的上下文以促進(jìn)目標(biāo)預(yù)測(cè)。簡(jiǎn)單來(lái)說(shuō),糾纏編碼器利用動(dòng)作信息催化局部區(qū)域與文字的相互關(guān)聯(lián)。
▲?三輸入的糾纏編碼器
該編碼器引入了兩個(gè)多頭注意力模塊,每個(gè)模塊都將動(dòng)作作為 query,從文字輸入或區(qū)域輸入中分別獲取相關(guān)信息,并將輸出作為另外一個(gè)模態(tài)的輸入。具體操作如下:
ActBERT訓(xùn)練方式建模方式
類似于常用的 BERT 訓(xùn)練方式,ActBERT 有四個(gè)訓(xùn)練任務(wù):
第一、有掩碼的語(yǔ)言建模任務(wù)。利用區(qū)域物體和全局動(dòng)作中的視覺(jué)信號(hào),發(fā)現(xiàn)視覺(jué)和語(yǔ)言實(shí)體之間的關(guān)系。該任務(wù)迫使模型從上下文描述中學(xué)習(xí),同時(shí)提取相關(guān)的視覺(jué)特征以協(xié)助文本預(yù)測(cè)。當(dāng)動(dòng)詞被去除時(shí),模型應(yīng)該利用動(dòng)作特征來(lái)更準(zhǔn)確預(yù)測(cè)。當(dāng)描述局部的名詞被去除時(shí),本地區(qū)域特征可以提供更多的上下文信息。
第二、有掩碼的動(dòng)作分類任務(wù)。這個(gè)任務(wù)是根據(jù)語(yǔ)言和物體特征,預(yù)測(cè)被去除的動(dòng)作標(biāo)簽。明確的動(dòng)作預(yù)測(cè)可以有兩方面的好處:1)長(zhǎng)時(shí)期動(dòng)作序列線索可以被挖掘,該任務(wù)可以更好地分辨執(zhí)行動(dòng)作時(shí)的時(shí)間順序;2)利用區(qū)域物體和語(yǔ)言文本可以獲得更好的跨模態(tài)建模,該任務(wù)可以增強(qiáng)預(yù)訓(xùn)練模型中的動(dòng)作識(shí)別能力,可以進(jìn)一步推廣到許多下游任務(wù)。
第三、有掩碼的物體分類任務(wù)。在該任務(wù)中,局部區(qū)域?qū)ο筇卣鞅浑S機(jī)去除。其目標(biāo)分布為將該區(qū)域輸入到相同的目標(biāo)檢測(cè)模型得到的激活值。優(yōu)化目標(biāo)是最小化兩種分布之間的 KL 差異。?
第四、跨模式匹配。與下一個(gè)句子預(yù)測(cè)(NSP)任務(wù)類似,在第一個(gè)符號(hào) [CLS] 的輸出后加入了一個(gè)線性分類器,用來(lái)指示語(yǔ)言與視覺(jué)特征的相關(guān)性。如果分?jǐn)?shù)較高,表明文本很好地描述了視頻片段。
實(shí)驗(yàn)結(jié)果
ActBERT 在 HowTo100M 數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練。該數(shù)據(jù)集涵蓋了總計(jì) 23,611 項(xiàng)任務(wù),例如維護(hù)和修理、動(dòng)物營(yíng)救、準(zhǔn)備食材等。在五個(gè)任務(wù)上評(píng)測(cè)了 ActBERT 的性能,結(jié)果顯示 ActBERT 在所有評(píng)測(cè)任務(wù)上都獲得了大幅度的性能提升。
視頻描述生成實(shí)驗(yàn)結(jié)果
ActBERT 在所有指標(biāo)上均優(yōu)于 VideoBERT,表明預(yù)訓(xùn)練學(xué)習(xí)到更好的視頻表示,也表明 ActBERT 對(duì)視頻序列建模的有效性。
動(dòng)作分割實(shí)驗(yàn)結(jié)果
ActBERT 明顯優(yōu)于基準(zhǔn)方法。它表明預(yù)訓(xùn)練的 ActBERT 可以僅處理視覺(jué)。當(dāng)刪除區(qū)域信息時(shí),可以觀察到性能下降了,表明詳細(xì)的局部線索對(duì)于密集視頻幀標(biāo)記任務(wù)有重要作用。
動(dòng)作步驟定位實(shí)驗(yàn)結(jié)果
ActBERT 的表現(xiàn)明顯優(yōu)于 TVJE,即平均提升有 7%。這個(gè)結(jié)果甚至比監(jiān)督學(xué)習(xí)的性能還要好。為了與 TVJE 有公平的對(duì)比,本文刪除了局部區(qū)域信息,這個(gè)結(jié)果也明顯優(yōu)于 TVJE,證明 ActBERT 預(yù)訓(xùn)練的有效性。完整 ActBERT 模型進(jìn)一步提高了 4%。
文本視頻片段檢索與視頻問(wèn)答實(shí)驗(yàn)結(jié)果
不需要復(fù)雜的聯(lián)合視頻文本建模,ActBERT 明顯優(yōu)于現(xiàn)有其他方法。表明 ActBERT 在大規(guī)模數(shù)據(jù)集上的強(qiáng)大學(xué)習(xí)能力。
結(jié)論
在?ActBERT 像其他視頻文字建模方式一樣,展現(xiàn)了自監(jiān)督視頻文字建模強(qiáng)大的特征學(xué)習(xí)能力,并提升下游任務(wù)。未來(lái)的工作有:
1. 在細(xì)粒度動(dòng)作分類上驗(yàn)證模型性能;
2. 改善超大規(guī)模訓(xùn)練過(guò)程中效率的問(wèn)題;
3. 進(jìn)一步改進(jìn)多模態(tài)編碼器的結(jié)構(gòu),提升多模態(tài)編碼器的泛化能力;
4. 在更多域進(jìn)行評(píng)測(cè)(如娛樂(lè)短視頻),驗(yàn)證預(yù)訓(xùn)練模型在不同域之間的遷移能力。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
?????來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的CVPR 2020 | ActBERT: 自监督多模态视频文字学习的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 香烟盒底部的钢印代表什么意思?
- 下一篇: 苹果 Vision Pro 沉浸式影片《