中科院自动化所:最新视觉-语言预训练综述
論文標題:
VLP: A Survey on Vision-Language Pre-training
論文鏈接:
https://arxiv.org/abs/2202.09061
摘要
在過去幾年中,預訓練模型的出現將計算機視覺(CV)和自然語言處理(NLP)等單模態領域帶入了一個新時代。大量工作表明它們有利于下游單模態任務,并可以避免從頭開始訓練新模型。那么這樣的預訓練模型能否應用于多模態任務呢?研究人員已經探索了這個問題并取得了重大進展。
本文調查了視覺-語言預訓練 (VLP)的最新進展和新的前沿,包括圖像-文本和視頻-文本預訓練。為了讓讀者更好地全面掌握 VLP,我們首先從特征提取、模型架構、預訓練目標、預訓練數據集和下游任務五個方面回顧其最近的進展。然后,我們詳細總結了具體的 VLP 模型。最后,我們討論了 VLP 的新領域。據我們所知,這是 VLP 領域的第一個綜述。我們希望這個綜述能夠為 VLP 領域的未來研究提供啟示。
介紹
讓機器以類似于人類的方式做出反應一直是人工智能研究人員的不懈目標。為了讓機器能夠感知和思考,研究人員提出了一系列相關任務,例如人臉識別、閱讀理解和人機對話,以訓練和評估機器在特定方面的智能。具體來說,領域專家手動構建標準數據集,然后在其上訓練和評估相關模型。
然而,由于相關技術的限制,往往需要在大量的標注數據上進行訓練,以獲得更好、更有能力的模型。最近出現的基于 Transformer 結構的預訓練模型緩解了這個問題。它們首先通過自監督學習進行預訓練,其通常利用輔助任務(預訓練目標)從大規模未標記數據中自動挖掘監督信號來訓練模型,從而學習通用表示。
然后,他們可以通過僅在下游任務上使用少量人工標記數據進行微調就能實現令人驚訝的效果。自從 BERT 在自然語言處理(NLP)中出現以來,各種預訓練模型在單模態領域如雨后春筍般涌現,例如計算機視覺(CV)領域的 Vision Transformer(ViT)和語音領域的 Wave2Vec。大量工作表明它們有利于下游單模態任務,并避免從頭開始訓練新模型。
與單模態領域類似,多模態領域也存在高質量標注數據較少的問題。一個很自然的問題是上述預訓練方法能否應用于多模態任務?研究人員已經探索了這個問題并取得了重大進展。在本文中,我們關注主流的視覺-語言預訓練(VLP),包括圖像-文本和視頻-文本預訓練。
VLP 主要通過基于大規模數據進行預訓練來學習不同模態之間的語義對應關系。例如,在圖像-文本預訓練中,我們期望模型將文本中的“狗”與圖像中的“狗”相關聯。在視頻-文本預訓練中,我們期望模型將文本中的物體/動作映射到視頻中的物體/動作。為了實現這一目標,需要巧妙地設計 VLP 目標和模型架構,以允許模型挖掘不同模態之間的關聯。
為了讓讀者更好地了解 VLP,我們首先從 5 個重要方面全面回顧其最新進展:
1)特征提取:本節包括 VLP 模型中圖像、視頻和文本的預處理和表示方法(參見第 3 節);
2)模型架構:我們從兩個不同的角度介紹 VLP 模型的架構:從多模態融合的角度分為單流與雙流,從整體架構設計的角度分為 Encoder-only 與 Encoder-decoder (參見第 4 節);
3)預訓練目標:預訓練目標是 VLP 的核心,主要用于指導模型學習視覺語言相關聯的信息。我們總結了典型和特殊的預訓練目標,分為補全、匹配、時序和特殊類型(參見第 5 節);
4)預訓練數據集:數據對于 VLP 至關重要。我們簡要介紹了 VLP 的主流語料庫及其具體大小(參見第 6 節);
5)下游任務:多種任務需要視覺和語言的合作知識。我們將它們分為五類:分類、回歸、檢索、生成和其他任務。我們還討論了這些任務的基本細節和目標(參見第 7 節)。
然后我們詳細總結了具體的最先進(SOTA)VLP 模型(參見第 8 節)。最后,我們總結論文并對 VLP 的新前沿進行了廣泛的討論(參見第 9 節)。
據我們所知,這是 VLP 領域的第一篇綜述。我們希望我們的綜述能夠幫助研究人員更好地了解這一領域,并激發他們設計出更好的模型。
特征抽取
本節介紹 VLP 模型如何預處理和表示圖像、視頻和文本以獲得對應特征。
3.1 特征預處理
圖像特征預處理主要包括三種:基于目標檢測的區域特征,基于 CNN 的網格特征以及基于 ViT 的 patch 特征。
視頻特征預處理:主要先對視頻分幀,得到圖像序列,然后按照上述圖像特征預處理方式進行處理。
文本特征預處理:主要遵循 BERT 的預處理方式,將輸入句子切分為子詞序列,然后收尾追加 [CLS] 和 [SEP],最后輸入表示為詞 embedding +位置 embedding + segment embedding。
3.2?特征表示
為了充分利用單模態預訓練模型,VLP 模型可以將視覺或文本特征輸入到 Transformer 編碼器。具體來說,VLP 模型利用具有隨機初始化的標準 Transformer 編碼器來生成視覺或文本表示。此外,VLP 模型可以利用預訓練的視覺 Transformer 對基于 ViT 的 patch 特征進行編碼,例如 ViT 和 DeiT。VLP 模型也可以使用預訓練的文本 Transformer 對文本特征進行編碼,例如 BERT。為簡單起見,我們將這些 Transformer 命名為 Xformer。
更多細節描述詳見論文 Section 2.
模型結構
在本節中,我們從兩個不同的角度介紹 VLP 模型的架構:(1)從多模態融合的角度分為單流與雙流,以及(2)從整體架構設計來看分為 only-encoder 與 encoder-decoder。
4.1 Single-stream versus Dual-strea
單流架構是指將文本和視覺特征連接在一起,然后輸入單個 Transformer 模塊,如 Firgue 1(a)所示。
雙流架構是指文本和視覺特征沒有連接在一起,而是獨立發送到兩個不同的 Transformer 塊,如 Firgue 1(b)所示。
4.2?Encoder-only versus Encoder-decoder
許多 VLP 模型采用僅編碼器架構,其中跨模態表示直接饋入輸出層以生成最終輸出。相比之下,其他 VLP 模型提倡使用轉換器編碼器-解碼器架構,其中跨模態表示首先饋入解碼器,然后饋入輸出層。
更多細節描述詳見論文 Section 3.
預訓練目標
本節介紹我們如何通過使用不同的預訓練目標來預訓練 VLP 模型,這對于學習視覺-語言的通用表示至關重要。我們將預訓練目標總結為四類:補全、匹配、時序和特定類型。
補全類型是通過利用未掩碼的剩余部分來重建掩碼元素從而理解模態,包括? Masked Language Modeling,Prefix Language Modeling,Masked Vision Modeling 等;
匹配類型是將視覺和語言統一到一個共享的隱藏空間中,以生成通用的視覺-語言表示,包括 Vision-Language Matching,Vision-Language Contrastive Learning,Word-Region Alignment等;
時序類型是通過對中斷的輸入序列重新排序來學習良好的表示,主要針對視頻相關的預訓練,如 Frame Order Modeling 等;
特殊類型由其他預訓練目標組成,例如視覺問答和視覺描述等。
更多細節描述詳見論文 Section 4.
預訓練數據集
大多數 VLP 數據集是通過組合跨不同多模態任務的公共數據集構建的。然而,之前的一些工作,例如 VideoBERT、ImageBERT、ALIGN 和 CLIP,處理從互聯網收集的大量數據并使用他們自己構建的數據集進行訓練。在這里,一些主流語料庫及其規模信息如表 1 所示。
下游任務
各種各樣的任務需要視覺和語言方面的合作知識。在本節中,我們將介紹此類任務的基本細節和目標,并將其分為五類:分類、回歸、檢索、生成和其他任務,其中分類、回歸和檢索任務也稱為理解任務。
分類任務主要包括:Visual Question Answering(VQA)、Visual Question Answering(VQA)、Natural Language for Visual Reasoning(NLVR).、Visual Commonsense Reasoning(VCR)等;
回歸任務包括 Multi-modal Sentiment Analysis(MSA);
檢索任務主要指的是一些視覺-語言檢索任務;
生成任務包括:Visual Dialogue(VD)、Visual Captioning(VC)等;
其他任務包括:Multi-modal ?Machine ?Translation(MMT)、Vision-Language Navigation(VLN).等。
更多細節描述詳見論文 Section 6.
SOTA VLP models
基于上述 VLP 模型的 5 大方面,我們對近幾年的 VLP 模型進行了匯總整理:
更多細節描述詳見論文 Section 7.
總結和新前沿
在本文中,我們提供了第一個 VLP 綜述。我們從特征提取、模型架構、預訓練目標、預訓練數據集和下游任務五個方面回顧了它的最新進展,并詳細總結了具體的 SOTA VLP 模型。我們希望我們的綜述能夠幫助研究人員更好地了解 VLP,并激發新的工作來推動這一領域的發展。未來,在現有工作的基礎上,VLP 可以從以下幾個方面進一步發展:
1)Incorporating Acoustic Information. 以前關于多模態預訓練的大多數工作都強調語言和視覺的聯合建模,但忽略了隱藏在音頻中的信息。盡管音頻中的語義信息可能與語言重疊,但音頻可以提供額外的情感信息、聲學邊界信息等。此外,使用音頻進行預訓練使模型能夠處理具有聲學輸入的下游任務。
到目前為止,跨文本、視覺和音頻的聯合建模和表示仍然是一個有待進一步研究的懸而未決的問題。一些前沿的工作已經闡明了這個研究領域的未來。與之前的 VLP 模型不同,VATT將原始音頻作為輸入,并通過噪聲對比估計(NCE)學習多模態表示。
與 VATT 不同,OPT 結合各種多級掩蔽策略學習跨文本、圖像和音頻的跨模態表示,并且它還能夠生成文本和圖像。其他一些工作,例如 AudioCLIP 和 MERLOT Reserve,也展示了他們在三種模態上學習跨模態表示的獨特方法;
2)Knowledgeable Learning and Cognitive. 雖然現有的 VLP 模型已經取得了顯著的性能,但它們的本質是擬合大規模的多模態數據集。使 VLP 模型更具有知識性對于未來的 VLP 很重要。對于輸入的視覺和文本,有豐富的相關外部常識世界知識和說明性情景知識,可以用來增強輸入,加速模型訓練和推理。解決這個問題需要統一的認知模型架構、知識引導的預訓練目標以及與新知識交互的支持;
3)Prompt Tuning. 目前,微調是將 VLP 的知識轉移到下游任務的主要方法。然而,隨著模型規模的增加,每個下游任務都有其微調參數,導致參數效率低下。此外,多樣化的下游任務也使得預訓練和微調階段的設計變得繁瑣,導致它們之間存在 gap。
最近,Prompt Tuning 在 NLP 中越來越受到關注。通過設計離散或連續Prompt 并將 MLM 用于特定的下游任務,這些模型可以 a. 減少微調大量參數的計算成本;b. 彌合預訓練和微調之間的差距。Prompt Tuning 是激發 PLM 中分布的語言和世界知識的一種很有前途的方法。下一步可以改進并遷移到多模態場景,打破傳統范式,解決 VLP 的痛點問題。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的中科院自动化所:最新视觉-语言预训练综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 公积金装修贷款注意事项
- 下一篇: MCN公司注册要求 自媒体从业者一定