CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记
生活随笔
收集整理的這篇文章主要介紹了
CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
目錄
- 簡介
- 動機
- 貢獻
- 方法
- 實驗
簡介
本文是在NIPS 2019 ViLBERT上的拓展。
論文鏈接
動機
本文修改了ViLBERT的預(yù)訓(xùn)練過程,有兩個小修改:1. 對regions進行mask時,將IoU大于0.4的regions也mask掉,避免視覺信息泄漏;2. 在多模態(tài)對齊的負樣本采樣時,不強制masked multi-modal modelling loss,這樣可以有效地降低負樣本帶來的噪聲。
貢獻
方法
本文沒給框架圖,下圖出自NIPS 2019 ViLBERT。
多任務(wù)學(xué)習(xí)的過程:
實驗
下圖是實驗結(jié)果,row1-2是single-task training,row3-5是multi-task training,row6-9是task-specific fine-tuning。
在多個任務(wù)上和SOTA的對比:
總結(jié)
以上是生活随笔為你收集整理的CVPR 2020 《12-in-1: Multi-Task Vision and Language Representation Learning》论文笔记的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ACL 2020 《Cross-Moda
- 下一篇: CVPR 2020 运行12-in-1遇