Facebook 推出多模态通用模型 FLAVA,吊打 CLIP 平均十个点!
文 | 子龍
編 | 智商掉了一地
厲害了!作者將單一模型運用于三個不同領(lǐng)域的不同任務(wù),結(jié)構(gòu)簡單且訓練直觀,還能有著出色的表現(xiàn)。
自Transformer橫空出世,從NLP到CV,再到今天的多模態(tài),無數(shù)基于Transformer的模型被應用于各類任務(wù),似乎真的印證了當年文章的標題“Transformer is ALL you need”。然而,純粹的NLP任務(wù)有BERT、RoBERTa,CV任務(wù)有ViT,多模態(tài)任務(wù)又有VLBERT、OSCAR,雖然都是基于Transformer的結(jié)構(gòu),但是仍然是針對不同任務(wù)設(shè)計不同模型,那么“萬能”的Transformer能否構(gòu)建出一個統(tǒng)合各類任務(wù)的模型,實現(xiàn)真的的一個模型解決所有問題呢?
今天文章的作者就關(guān)注到了當前各個模型的局限,提出了一個適用于NLP+CV+多模態(tài)的模型FLAVA,可運用于三種領(lǐng)域共計35個任務(wù),且都有著出色的表現(xiàn)。
論文題目:
FLAVA: A Foundational Language And Vision Alignment Model
論文鏈接:
https://arxiv.org/abs/2112.04482
介紹
文章標題中,作者稱模型為“Foundational”,他們不希望借助各種奇技淫巧的Tricks,而是通過盡可能簡單的結(jié)構(gòu),配合直觀的的訓練手段,達到涵蓋NLP、CV、多模態(tài)的目的。
FLAVA基于三種不同的輸入:
匹配的圖片-文本
單獨文本
單獨圖片
解決三個領(lǐng)域的問題:
NLP:語言理解(如GLUE)
CV:視覺識別(如ImageNet)
多模態(tài):多模態(tài)解釋(如VQA)
圖片編碼器(Image Encoder)
FLAVA直接借用既有模型ViT的結(jié)構(gòu),同時仿照ViT的處理方法,分割圖片進行編碼。在ViT輸出的隱狀態(tài)上,FLAVA利用單一模態(tài)數(shù)據(jù)集中的圖片進行Masked Image Modeling。首先,利用dVAE將圖片轉(zhuǎn)化為類似詞向量的token;再參照BEiT,對masked隱狀態(tài)進行分類,即利用周圍圖片分塊,預測masked的圖片屬于dVAE劃分的哪一類,這樣在圖片上也可以像BERT那樣做mask modeling。
文本編碼器(Text Encoder)
FLAVA在文本部分多處理就相對簡單,作者采取常見的Masked Language Modeling,對一部分masked token進行預測,和其他方法對區(qū)別在于,FLAVA沒有采用BERT之類純文本語言模型的結(jié)構(gòu),而是和圖片編碼器一樣,使用了ViT的結(jié)構(gòu),不過因為是不同的模態(tài),自然采用了不同的模型參數(shù)。
多模態(tài)編碼器(Multimodal Encoder)
在圖片編碼器和文本編碼器之上,FLAVA添加了一層多模態(tài)編碼器做模態(tài)融合,多模態(tài)編碼器將前兩者輸出的隱藏狀態(tài)作為輸入,同樣利用ViT的模型結(jié)構(gòu)進行融合。
多模態(tài)預訓練
在文本編碼器和圖片編碼器中,FLAVA在單一模態(tài)上進行了預訓練,在多模態(tài)預訓練方面,FLAVA使用了三種多模態(tài)預訓練任務(wù):
對比學習:FLAVA利用圖片編碼器和文本編碼器的隱藏狀態(tài),增大相匹配的圖片-文本對之間的余弦相似度,減小非匹配的圖片-文本對之間的余弦相似度。
Masked Multimodal Modeling:與圖片編碼器上的MIM類似,只不過改為利用多模態(tài)編碼器的隱狀態(tài)進行預測。
圖片-文本匹配:與許多現(xiàn)有模型一樣,FLAVA利用多模態(tài)編碼器的[CLS]的隱狀態(tài),識別當前圖片與文本是否匹配。
效果
從上述模型細節(jié)可以看出,無論是模型結(jié)構(gòu),還是預訓練任務(wù),文本與圖片之間高度對稱,同時也設(shè)計也十分直觀。接下來看看在35個任務(wù)上的表現(xiàn)。
圖中下劃線表示最優(yōu)結(jié)果,加粗表示在公開數(shù)據(jù)集上訓練的最優(yōu)結(jié)果。
從各個任務(wù)平均上看,FLAVA能夠取得整體上的最優(yōu)結(jié)果,多模態(tài)任務(wù)平均比CLIP高出2個百分點左右,整體平均比CLIP高出10個百分點左右。從具體任務(wù)上看,在不少任務(wù)上都取得了十分顯著的提高,如STS-B數(shù)據(jù)集提高了69.69,MNLI數(shù)據(jù)集提高了46.81。
小結(jié)
不同于現(xiàn)有模型,FLAVA最大的特點,也可以說是創(chuàng)新點,在于作者實現(xiàn)了將單一模型運用于三個不同領(lǐng)域的不同任務(wù),而且都有著不錯的效果,雖然FLAVA并沒有奇跡般在所有任務(wù)上都達到SOTA,但是整體性能上并不弱于現(xiàn)有模型,同時有著更廣闊的運用場景,模型設(shè)計也沒有各種奇技淫巧,這對未來研究通用模型有著很大的啟發(fā)。
萌屋作者:子龍(Ryan)
本科畢業(yè)于北大計算機系,曾混跡于商湯和MSRA,現(xiàn)在是宅在UCSD(Social Dead)的在讀PhD,主要關(guān)注多模態(tài)中的NLP和data mining,也在探索更多有意思的Topic,原本只是貴公眾號的吃瓜群眾,被各種有意思的推送吸引就上了賊船,希望借此沾沾小屋的靈氣,paper++,早日成為有貓的程序員!
作品推薦:
1.別再搞純文本了!多模文檔理解更被時代需要!
2.Transformer哪家強?Google爸爸辨優(yōu)良!
3.預訓練語言真的是世界模型?
后臺回復關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關(guān)鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
總結(jié)
以上是生活随笔為你收集整理的Facebook 推出多模态通用模型 FLAVA,吊打 CLIP 平均十个点!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 最新进展 | 深度学习在天气预测中的应用
- 下一篇: 深入解析GBDT二分类算法(附代码实现)