Visual BERT论文的简单汇总
生活随笔
收集整理的這篇文章主要介紹了
Visual BERT论文的简单汇总
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
目錄
- ICCV 2019 VideoBERT
- NIPS 2019 ViLBERT
- arXiv 2019 VisualBERT
- arXiv 2019 CBT
- arXiv 2019 UNITER
- EMNLP-IJCNLP 2019 B2T2
- EMNLP-IJCNLP 2019 LXMERT
- AAAI 2020 Unicoder-VL
- ICLR 2020 VL-BERT
- AAAI 2020 VLP
- CVPR 2020 12-in-1
- 對比
關于BERT和Transformer的介紹,可以看我的這篇博客。
ICCV 2019 VideoBERT
- 題目
VideoBERT: A Joint Model for Video and Language Representation Learning
下載鏈接 - 簡述
本文將BERT從NLP領域移植到了視頻+語言的跨模態領域,將BERT中的“句子pair”改為了“句子視頻pair”,類似于BERT,對視頻幀進行隨機的MASK。最終在動作分類和video captioning上進行了測試。
NIPS 2019 ViLBERT
- 題目
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
下載鏈接 - 簡述
本文采用雙路輸入(支持多模態輸入),將圖片和文本分別處理,并通過co-attention transformer層進行交互。最終在VQA、VCR、Grounding Referring Expressions和Caption-Based Image Retrieval四個任務上進行了測試。
arXiv 2019 VisualBERT
- 題目
VisualBERT: A Simple and Performant Baseline for Vision and Language
下載鏈接 - 簡述
本文的結構和Video BERT類似,均將text feature和visual feature串聯。不同的是,本文的visual feature使用的是region feature,但是沒有對其進行mask。損失通過Objective1(word mask)和Objective2(輸出序列整體)進行約束。
arXiv 2019 CBT
- 題目
Learning Video Representations using Contrastive Bidirectional Transformer
下載鏈接 - 簡述
本文和videoBERT一樣,使用video feature作為visual feature。但是,本文沒有將visual feature和word feature串聯,而是分別進行,再通過一個跨模態Transformer對二者進行聯合。
arXiv 2019 UNITER
- 題目
UNITER: Learning UNiversal Image-TExt Representations
下載鏈接 - 簡述
本文的結構也是使用region feature作為visual feature,將其與word feature串聯,并進行mask。多了一個region mask objectives。
EMNLP-IJCNLP 2019 B2T2
- 題目
Fusion of Detected Objects in Text for Visual Question Answering
下載鏈接 - 簡述
本文提出了兩種方法,分別是:late fusion和early fusion。late fusion的輸入部分和BERT幾乎沒差,只是在[cls]輸出端,融合visual feature進行分類。early fusion的輸入部分,將word mask使用visual feature進行替換。本文的一大創新是,沒有使用單獨的visual feature輸入序列。
EMNLP-IJCNLP 2019 LXMERT
- 題目
LXMERT: Learning Cross-Modality Encoder Representations from Transformers
下載鏈接 - 簡述
本文方法采用雙路輸入,上分支用于訓練視覺能力,使用region feature作為輸入;下分支用于訓練文本能力,使用word feature作為輸入;最終通過一個跨模態encoder進行交互。本文在VQA和 NLVR2(Natural Language for Visual Reasoning for Real)任務上進行了測試。
AAAI 2020 Unicoder-VL
- 題目
Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal
Pre-training
下載鏈接 - 簡述
本文在結構上類似于VideoBERT,將visual feature和text feature串聯在一起,但是本文的visual feature使用的是region feature,預測部分直接預測label。
ICLR 2020 VL-BERT
- 題目
VL-BERT: Pre-training of Generic Visual-Linguistic Representations
下載鏈接 - 簡述
本文在方法上和Unicoder-VL類似,都是使用region feature作為visual feature。不同的是,本文在embedding中加入了Visual Feature Embedding(完整圖像的特征)。本文方法基于Conceptual Captions數據集進行了訓練,且在VCR排行榜上取得了single model的最好成績。
AAAI 2020 VLP
- 題目
Unified Vision-Language Pre-Training for Image Captioning and VQA
下載鏈接 - 簡述
本文與前人工作不同的是,在預訓練任務中引入了seq2seq的mask語言模型,使其更適合做Image Captioning和Visual Question Answering。
CVPR 2020 12-in-1
- 題目
12-in-1: Multi-Task Vision and Language Representation Learning
下載鏈接
詳細介紹 - 簡述
本文在NIPS 2019 ViLBERT的基礎上,首先修改了預訓練過程,有兩個小修改:1. 對regions進行mask時,將IoU大于0.4的regions也mask掉,避免視覺信息泄漏;2. 在多模態對齊的負樣本采樣時,不強制masked multi-modal modelling loss,這樣可以有效地降低負樣本帶來的噪聲。其次,有兩處不同(創新):1. 提出Clean V&L Multi-Task setup,可以在多任務訓練過程中,確保沒有任務泄漏;2. 提出多任務訓練模型,在12個V&L數據集上同時訓練,在四個任務上進行了驗證:Vocab-based VQA、Image Retrieval、Referring Expressions和Multi-modal Verification。
對比
下圖出自AAAI 2020 VLP
下圖出自ICLR 2020 VL-BERT
總結
以上是生活随笔為你收集整理的Visual BERT论文的简单汇总的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Visual Question Answ
- 下一篇: 图像处理中的秩、低秩、稀疏