拒绝无脑吹!从ACL20看预训练缺陷
星標(biāo)/置頂小屋,帶你解鎖
最萌最前沿的NLP、搜索與推薦技術(shù)
文 | 舒意恒、兔子醬
以 BERT 為代表作的預(yù)訓(xùn)練模型的研究熱度一直很高,到 0202 年了,預(yù)訓(xùn)練的研究依舊層出不窮,而且 ACL 2020 Best Paper 榮譽(yù)提名也選擇了這一主題的研究。
但是,只要我們不停止預(yù)訓(xùn)練,其表現(xiàn)就一定會提升嗎?預(yù)訓(xùn)練模型可以完全支持 NLP 的所有下游任務(wù)嗎?在 ACL 2020 已發(fā)表的論文中,我們整理并歸納出了目前學(xué)術(shù)界對預(yù)訓(xùn)練模型的不同看法。
論點(diǎn)一
預(yù)訓(xùn)練,效果就是棒
預(yù)訓(xùn)練的優(yōu)勢,來源于大量數(shù)據(jù)積累所造就的良好泛化能力。
ACL 2020|Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks[1]
動機(jī)
雖然通用預(yù)訓(xùn)練模型是在大量語料上進(jìn)行的,且在glue benchmark等經(jīng)典的公開數(shù)據(jù)集上取得了很好的效果,但是當(dāng)其遷移到一些不那么通用的領(lǐng)域數(shù)據(jù)(如醫(yī)療、金融等)上時,通用預(yù)訓(xùn)練模型是否依然有這么好的表現(xiàn)呢?
實(shí)驗(yàn)
作者在4個領(lǐng)域(生物醫(yī)學(xué)、計(jì)算機(jī)科學(xué)、新聞和評論)的8個分類任務(wù)上進(jìn)行了“繼續(xù)預(yù)訓(xùn)練”的實(shí)驗(yàn),有以下兩種“繼續(xù)”方式:
領(lǐng)域自適應(yīng)預(yù)訓(xùn)練(Domain-Adaptive Pre-Training, DAPT) 在特定領(lǐng)域的無標(biāo)注數(shù)據(jù)上繼續(xù)進(jìn)行預(yù)訓(xùn)練。
任務(wù)自適應(yīng)預(yù)訓(xùn)練(Task-Adaptive Pre-Training,TAPT) 在和任務(wù)相關(guān)但未標(biāo)注的數(shù)據(jù)上繼續(xù)進(jìn)行預(yù)訓(xùn)練。
實(shí)驗(yàn)設(shè)置如下:
實(shí)驗(yàn)結(jié)果:
結(jié)論
實(shí)驗(yàn)表明針對領(lǐng)域(DAPT)或任務(wù)(TAPT)數(shù)據(jù)繼續(xù)預(yù)訓(xùn)練可以提升下游模型的效果,先進(jìn)行領(lǐng)域自適應(yīng)訓(xùn)練再進(jìn)行任務(wù)自適應(yīng)訓(xùn)練,往往可以進(jìn)一步提升模型表現(xiàn)。雖然論文是基于 RoBERTa 展開實(shí)驗(yàn),但是作者認(rèn)為這些策略都是通用的,所以應(yīng)用到其他語言模型上也是奏效的。
當(dāng)能獲取到更多任務(wù)相關(guān)的無標(biāo)注數(shù)據(jù)進(jìn)行繼續(xù)預(yù)訓(xùn)練(Curated-TAPT)時,效果更佳;如果無法取得這些數(shù)據(jù),可以通過基于KNN的簡單數(shù)據(jù)選擇策略,也可以取得一定程度的提升。
此外,作者對來自相同 domain 的兩個不同任務(wù)進(jìn)行了“跨任務(wù)遷移實(shí)驗(yàn)”,即首先在任務(wù) A 的標(biāo)注數(shù)據(jù)上進(jìn)行 LM 預(yù)訓(xùn)練,然后在任務(wù) B 的標(biāo)注數(shù)據(jù)上 finetune,實(shí)驗(yàn)發(fā)現(xiàn)這種跨任務(wù)的預(yù)訓(xùn)練對效果是有損失的。
該更多的更多細(xì)節(jié)可以參考賣萌屋前不久推送過的《ACL20 best paper榮譽(yù)提名 | DO NOT Stop Pretraining!》
ACL 2020 | Pretrained Transformers Improve Out-of-Distribution Robustness[2]
動機(jī)
通常一個 NLP 任務(wù)的訓(xùn)練集、驗(yàn)證集、測試集都是符合相同分布(independent and identically distributed,IID)的數(shù)據(jù)。以 Transformer 為內(nèi)核的預(yù)訓(xùn)練模型在相同分布的測試集上可以取得高準(zhǔn)確率,但是它們在不同分布(out-of-distribution,OOD) 的數(shù)據(jù)上的泛化能力如何呢?
實(shí)驗(yàn)
作者首先構(gòu)建了一套測試模型魯棒性的評價(jià)體系,然后在 7 個 NLP 任務(wù)上度量多個模型的 OOD 泛化能力 generalization 和檢測能力 detection。實(shí)驗(yàn)的模型包括 bag-of-words、ConvNets 和 LSTM 以及 Transformers 系的 BERT、ALBERT模型。
結(jié)論
基于 Transformers 的模型相比其他結(jié)構(gòu)的較早提出的模型在 OOD 上更加魯棒,尤其是訓(xùn)練語料的風(fēng)格、形式越豐富的時候。但是并不代表說越大參數(shù)規(guī)模的 PTMs 表現(xiàn)越好。預(yù)訓(xùn)練很大程度上彌補(bǔ)了 OOD 和 IID 之間的差異。
蒸餾可能對 PTMs 性能是有損害的。
PTMs 在異常樣本檢測上也比以前的模型表現(xiàn)更敏感。
另外,本文不同于域適應(yīng)要同時學(xué)習(xí)源和目標(biāo)分布的表示,而是在沒有域適應(yīng)的情況下,測試模型在不可預(yù)知的分布偏差下的魯棒性。
ACL 2020|Pre-training Is (Almost) All You Need: An Application to Commonsense Reasoning[3]
動機(jī)
對預(yù)訓(xùn)練模型進(jìn)行微調(diào)已經(jīng)成為解決下游 NLP 任務(wù)的一個標(biāo)準(zhǔn)做法。因?yàn)轭A(yù)訓(xùn)練模型本身沒有攜帶特定分類標(biāo)簽的先驗(yàn)知識,所以作者認(rèn)為微調(diào)不是最優(yōu)的。那如何更好地利用預(yù)訓(xùn)練模型呢?
實(shí)驗(yàn)
本文研究的任務(wù)是常識推理任務(wù),Transformer-based 的 encoder 之后不是連接分類層,而是設(shè)計(jì)了一個對 hypotheses 進(jìn)行排序的打分函數(shù)。在 4 個常識推理數(shù)據(jù)集進(jìn)行 zero-shot learning。同時和以 classifier 為輸出層進(jìn)行 finetune 的方法進(jìn)行了對比,測試兩者隨著訓(xùn)練集規(guī)模的變化的模型表現(xiàn)。采用 RoBERTa-large 作為實(shí)驗(yàn)?zāi)P汀?/p>
結(jié)論
實(shí)驗(yàn)表明,和有監(jiān)督方法相比,作者提出的評分方法可以作為一個很強(qiáng)的 baseline。直接使用 MLM 的 head 會有持續(xù)的性能增益隨著訓(xùn)練數(shù)據(jù)規(guī)模的減小。未來工作包括將該評分方法用于自然語言推斷和情感分析等任務(wù)。
論點(diǎn)二
預(yù)訓(xùn)練模型對語言的理解有限
預(yù)訓(xùn)練模型的局限體現(xiàn)在,一是記憶和存儲語言知識的能力有限,二是對語言邏輯的理解能力有限。
ACL 2020|To Pretrain or Not to Pretrain: Examining the Benefits of Pretraining on Resource Rich Tasks[4]
動機(jī)
PTMs 已然取得了很好的效果,作者認(rèn)為在數(shù)據(jù)豐富的下游任務(wù)中微調(diào)模型還沒有很好地被研究,所以作者想檢驗(yàn)下游任務(wù)中訓(xùn)練樣本的數(shù)量對預(yù)訓(xùn)練模型的影響。
實(shí)驗(yàn)
本文實(shí)驗(yàn)關(guān)注于多類別的情感分類任務(wù),對三種模型進(jìn)行了系統(tǒng)的實(shí)驗(yàn),包括 RoBERTa、LSTM 以及使用預(yù)訓(xùn)練模型的詞向量層的 LSTM。
結(jié)論
對于文本分類任務(wù)來說,用百萬級的數(shù)據(jù)訓(xùn)練簡單的 LSTM 就足夠獲得有競爭力的效果。微調(diào) RoBERTa 的結(jié)果 與 LSTM 的差距不足 1% 。當(dāng)訓(xùn)練數(shù)據(jù)足夠多時,基于 MLM 的 PTMs 表現(xiàn)可能不再增加。
ACL 2020|Negated and Misprimed Probes for Pretrained Language Models: Birds Can Talk, But Cannot Fly[5]
動機(jī)
PTMs 已經(jīng)成為一種用來捕獲通用語言知識和基礎(chǔ)事實(shí)知識的通用工具,但是 PTMs 是否真的可以從訓(xùn)練語料中學(xué)習(xí)到知識呢?比如 PTMs 是否具備區(qū)分肯定否定、是否不被錯誤的噪聲干擾呢?
實(shí)驗(yàn)
作者設(shè)計(jì)了兩組實(shí)驗(yàn)來對 PTMs 進(jìn)行語言模型分析(LAnguage Model Analysis,LAMA)。1)研究模型是否可以正確區(qū)分肯定否定。通過人為地在句子中插入否定詞,比如(“Birds cannot [MASK]”)和(“Birds can [MASK]”);(2)研究模型是否被錯誤信息誘導(dǎo)。在模型可以正確識別的句子中加入“錯誤”,比如(“Talk?Birds can [MASK]”)。
結(jié)論
作者發(fā)現(xiàn)預(yù)訓(xùn)練模型都不能很好地處理這兩類問題。當(dāng)前的預(yù)訓(xùn)練模型很容易被干擾,例如句子中的否定和“錯誤”。它是通過較淺層的模式匹配的方式解決開放域QA問題,而不是基于事實(shí)知識和推理。事實(shí)知識和邏輯推理能力在預(yù)訓(xùn)練模型中是零散的、不成體系的。
論點(diǎn)三
預(yù)訓(xùn)練模型的遷移能力仍待研究
遷移能力的局限體現(xiàn)在,對于小數(shù)據(jù)集能否很好地適應(yīng)任務(wù)?或者微調(diào)后是否忘記了已經(jīng)在預(yù)訓(xùn)練中學(xué)習(xí)到的知識?
ACL 2020|Intermediate-Task Transfer Learning with Pretrained Models for Natural Language Understanding: When and Why Does It Work?[6]
動機(jī)
盡管預(yù)訓(xùn)練模型表現(xiàn)良好,在對目標(biāo)任務(wù)微調(diào)之前,如果在數(shù)據(jù)豐富的中間任務(wù)上對模型進(jìn)行再次訓(xùn)練是否可以提升效果?再者,什么樣的中間任務(wù)對目標(biāo)任務(wù)有益?
實(shí)驗(yàn)
作者對中間任務(wù)對 PTMs 的影響進(jìn)行了大規(guī)模的實(shí)驗(yàn),本質(zhì)上一篇篇實(shí)驗(yàn)報(bào)告的文章。實(shí)驗(yàn)的步驟如下圖所示,1)獲得預(yù)訓(xùn)練的 RoBERTa,2)在中間任務(wù)上繼續(xù)訓(xùn)練,3)對目標(biāo)任務(wù)微調(diào)。本文一共設(shè)計(jì)了 110 種中間任務(wù)和目標(biāo)任務(wù)的組合,并用 25 個探針任務(wù)進(jìn)行評估,涵蓋了語法和語義。
結(jié)論
作者觀察到,需要高級推理能力的中間任務(wù),對于提升目標(biāo)任務(wù)的效果往往更好。例如共指共指解析任務(wù)。但遺憾的是,作者并未觀察到中間任務(wù)與目標(biāo)任務(wù)之間更加精細(xì)的相關(guān)性,這有待于進(jìn)一步的研究。另外作者表明,經(jīng)過中間任務(wù)的學(xué)習(xí)后可能導(dǎo)致模型忘記一些預(yù)訓(xùn)練中得到的知識,而這可能限制了對算法的分析。
ACL 2020|Do You Have the Right Scissors? Tailoring Pre-trained Language Models via Monte-Carlo Methods[7]
動機(jī)
微調(diào)是一種常見的利用預(yù)訓(xùn)練模型的方式。作者觀察到在一個小數(shù)據(jù)集上微調(diào)可能導(dǎo)致高估(over-estimated) 或 低估(under-estimated) 的現(xiàn)象。
實(shí)驗(yàn)
作者提出一種稱為 MC-Tailor 的方法,把高估區(qū)域的概率質(zhì)量(probalility mass)截?cái)嗪娃D(zhuǎn)移到低估區(qū)域。MC-Tailor 包括一個檢測高估和低估區(qū)域的比率估計(jì)模塊,以及一個 早期拒絕采樣(Early Rejection Sampling,ERS) 算法,在保證采樣質(zhì)量的同時加快采樣速度。在 9 個不同風(fēng)格和規(guī)模的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并使用了 5 項(xiàng)評價(jià)指標(biāo)。
結(jié)論
在文本生成任務(wù)上,MC-Tailor 效果顯著優(yōu)于微調(diào)方法。這表明在小數(shù)據(jù)集上應(yīng)用預(yù)訓(xùn)練模型,微調(diào)可能不是擬合數(shù)據(jù)的最好方法。
論點(diǎn)四
預(yù)訓(xùn)練模型有嚴(yán)重的漏洞
預(yù)訓(xùn)練對于下游任務(wù)來說似乎是一個黑盒,僅僅對預(yù)訓(xùn)練模型進(jìn)行微調(diào)并不代表我們完全掌控了這一模型。
ACL 2020|Weight Poisoning Attacks on Pretrained Models[8]
動機(jī)
如果用戶下載了不受信任的預(yù)訓(xùn)練模型,是否會構(gòu)成安全威脅呢?
實(shí)驗(yàn)
作者通過一種 RIPPLe 的正則化方法和 Embedding Surgery 的初始化方法,構(gòu)建 weight poisoning 攻擊(如圖所示),在情感分類,毒性檢測和垃圾郵件檢測任務(wù)上驗(yàn)證此方法的可行性。
結(jié)論
weight poisoning 這種攻擊方式廣泛存在,并且構(gòu)成了嚴(yán)重威脅。即使攻擊者對數(shù)據(jù)集和微調(diào)過程了解有限的情況下,也可以隨意操控模型預(yù)測結(jié)果。所以,預(yù)訓(xùn)練模型在微調(diào)后可能會暴露“后門”, RIPPLe 甚至可能構(gòu)建高達(dá) 100% 成功率的后門。另外,作者提出一種防御方式是,根據(jù)頻率以及與輸出類別的關(guān)系來檢查可能的觸發(fā)關(guān)鍵詞。
小結(jié)
我們不應(yīng)當(dāng)一味鼓吹預(yù)訓(xùn)練模型在 NLP 中的作用。預(yù)訓(xùn)練模型是龐大的黑盒子,是大型語料庫的高度抽象。T5、GPT-3 等模型,比更大還更大,以到普通實(shí)驗(yàn)室無法使用的地步。
共性與個性是我們理解世界的基本原理之一,而只強(qiáng)調(diào)預(yù)訓(xùn)練意味著只強(qiáng)調(diào) NLP 任務(wù)的共性,即便這樣的模型再大,也忽視了各類任務(wù)的個性。通過匯集當(dāng)前研究的各種觀點(diǎn),我們可以發(fā)現(xiàn),更大的模型并不是解決 NLP 各類任務(wù)的萬能鑰匙。
更重要的是且對研究者具有啟發(fā)的是,預(yù)訓(xùn)練模型的遷移能力、對語言的記憶能力、語言理解能力,甚至安全性上還存在諸多缺陷,等待我們的探索。
在訂閱號「夕小瑤的賣萌屋」后臺回復(fù)關(guān)鍵詞【0804】,即可下載論文PDF合集。
?文末福利?
后臺回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
有頂會審稿人、大廠研究員、知乎大V和妹紙
等你來撩哦~
夕小瑤的賣萌屋
關(guān)注&星標(biāo)小夕,帶你解鎖AI秘籍
訂閱號主頁下方「撩一下」有驚喜
參考文獻(xiàn)
[1] Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks:
?https://arxiv.org/pdf/2004.10964.pdf
[2]?Pretrained Transformers Improve Out-of-Distribution Robustness:?
https://arxiv.org/pdf/2004.06100.pdf
[3] Pre-training Is (Almost) All You Need: An Application to Commonsense Reasoning:?
https://arxiv.org/pdf/2004.14074.pdf
[4]?To Pretrain or Not to Pretrain: Examining the Benefits of Pretraining on Resource Rich Tasks:?https://arxiv.org/pdf/2006.08671.pdf
[5] Negated and Misprimed Probes for Pretrained Language Models: Birds Can Talk, But Cannot Fly:?
https://arxiv.org/pdf/1911.03343v3.pdf
[6] Intermediate-Task Transfer Learning with Pretrained Models for Natural Language Understanding: When and Why Does It Work?:?
https://arxiv.org/pdf/2005.00628.pdf
[7] Do You Have the Right Scissors? Tailoring Pre-trained Language Models via Monte-Carlo Methods:?
https://arxiv.org/pdf/2007.06162.pdf
[8]?Weight Poisoning Attacks on Pretrained Models:?
https://arxiv.org/pdf/2004.06660.pdf
總結(jié)
以上是生活随笔為你收集整理的拒绝无脑吹!从ACL20看预训练缺陷的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 史上最全Git学习教程
- 下一篇: 开启NLP新时代的BERT模型,真的好上