我不看好data2vec这类多模态融合的研究
文 | 謝凌曦@知乎
作者注:所有內(nèi)容均只代表作者本人觀點,均有可能被推翻,二次轉(zhuǎn)載務(wù)必連同聲明一起轉(zhuǎn)載。謝謝!
最近data2vec在twitter和知乎上小火了一把,有人說data2vec是個不錯的工作,也有人說data2vec最成功的就是名字。
我的一句話評價:在當(dāng)前的技術(shù)儲備下,我不太看好這種多模態(tài)融合的路線會走太遠。
先說文章。主體方法一句話就可以說清楚:利用masked data modeling的方式對語音、文本、圖像進行統(tǒng)一預(yù)訓(xùn)練。
至于用EMA來構(gòu)造teacher然后監(jiān)督student等常規(guī)操作,與許多已有方法相似,因此也不再贅述。和之前若干文章一樣,作者也毫不避諱,甚至有些驕傲地宣傳該方法非常簡單,并且可以處理三種不同模態(tài)。
實驗部分因為要兼顧三種模態(tài),所以每個部分都比較短,其中視覺部分略顯敷衍:只做了ImageNet上的fine-tuning——然而在我看來,fine-tuning這個setting真的沒有太大價值:預(yù)訓(xùn)練模型的兩個最重要的能力(小樣本、域遷移)都沒有得到考驗!
總的來講,與近期視覺領(lǐng)域的若干文章一樣,data2vec使用了極簡架構(gòu),達到了比較solid的實驗結(jié)果,因而是一篇值得被ICML接受的文章。
順便說句題外話感慨一下:最近做預(yù)訓(xùn)練的文章,都流行“方法1頁,實驗4-5頁”的暴力寫作風(fēng)格,似乎要向業(yè)界傳遞一個信號:方法不重要,數(shù)據(jù)和算力才是。
回想十年前,方法和實驗長度1:1的文章,都時常要被質(zhì)疑方法太簡單。時代確實不一樣了。
問題是,現(xiàn)在這樣真的對嗎?或者說,這樣真的能解決長遠的問題嗎?我們知道,不同模態(tài)的數(shù)據(jù)具有十分不同的性質(zhì)。除了語音和文本這種對應(yīng)性很強的跨模態(tài),如果我們考慮文本和圖像,就會發(fā)現(xiàn)兩者的對應(yīng)關(guān)系復(fù)雜而多變。
本中的某些token,根本不會在圖像中呈現(xiàn)出來,反之亦然。在這種情況下,統(tǒng)一使用masked modeling的做法,雖然確實取得了一定的效果,但是它的上限不會太高;指望它完成真正的跨模態(tài),就更是天方夜譚了。
上述現(xiàn)象,歸根結(jié)底,這是因為圖像和文本的來源不同:圖像作為反映客觀事物的載體,必須追求真實和詳細;而文本作為人類主觀意志的表達,則往往追求抽象和簡潔。
目前,還沒有任何一種方法能夠證實兩種數(shù)據(jù)應(yīng)該被映射到同一個隱空間上;而幾乎所有跨模態(tài)預(yù)訓(xùn)練方法,都不過將兩種完全不同的數(shù)據(jù)強行對齊,得到一些統(tǒng)計意義上的弱規(guī)律罷了。
當(dāng)然,我不是說這些事沒有意義。在深度學(xué)習(xí),尤其是具有大一統(tǒng)潛力的transformer模塊的助力下,這樣做確實拓展了人類的知識邊界和工具包,值得記為AI發(fā)展的一個小里程碑。
但是,我們決不能滿足于這種簡單暴力的方法,因為它們對本質(zhì)問題(即不同模態(tài)數(shù)據(jù)如何對齊)的幫助極為有限。
就拿我熟悉的視覺任務(wù)來說。BEIT和MAE開啟了一波masked image modeling的熱潮,然而問題是:在圖像上做mask真的對嗎,真的能夠?qū)W到高效的語義嗎?這個問題目前還沒有得到解答!
換句話說,還沒有人能夠回答,圖像自監(jiān)督究竟學(xué)到了什么,是否學(xué)到了超越像素統(tǒng)計量的信息?在這種情況下,如果我們一味地沉浸在transformer的表面繁榮里,沾沾自喜于fine-tuning比linear probing高出的那幾個百分點,怕是會忘了前路漫漫,懈怠于思考真正重要的問題吧。
總之,大一統(tǒng)很重要也很迷人,但是還不到火候啊。
最后,我希望以下兩件事至少發(fā)生一件。
第一,我被狠狠地打臉:這樣暴力的預(yù)訓(xùn)練方法確實帶來了非平凡的突破,走向下一個時代的AI。
第二,大佬/大組們能夠稍微冷靜一些,向業(yè)界傳遞正確的信號,讓沒有足夠資源燒實驗的同學(xué)們知道哪些問題重要、哪些問題亟待解決、哪些問題不過是無奈下的選擇:只有更理智的大眾,才能更好地推動業(yè)界發(fā)展,不是么?
后臺回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復(fù)關(guān)鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
總結(jié)
以上是生活随笔為你收集整理的我不看好data2vec这类多模态融合的研究的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 搭配对比学习,万能的 prompt 还能
- 下一篇: 学术工业界大佬联合打造:ML产品落地流程