GPT-3诞生,Finetune也不再必要了!NLP领域又一核弹!
一只小狐貍帶你解鎖煉丹術&NLP秘籍
2018年10月推出的BERT一直有著劃NLP時代的意義,然而還有一個讓人不能忽略的全程陪跑模型——OpenAI GPT(Generative Pre-Training)在以它的方式堅持著,向更通用的終極目標進發。
最初的GPT只是一個12層單向的Transformer,通過預訓練+精調的方式進行訓練,BERT一出來就被比下去了。之后2019年初的GPT-2提出了meta-learning,把所有NLP任務的輸入輸出進行了整合,全部用文字來表示,比如對于翻譯任務的輸入是“英翻法:This is life”,輸出是“C'est la vie”。直接把任務要做什么以自然語言的形式放到了輸入中。通過這種方式進行了大規模的訓練,并用了15億參數的大模型,一舉成為當時最強的生成模型。
遺憾的是,GPT-2在NLU領域仍并不如BERT,且隨著19年其他大模型的推出占據了下風,年初微軟推出的Turing-NLG已經到達了170億參數,而GPT-2只有15億。這些模型的尺寸已經遠遠超出了大部分公司的預算和調參俠們的想象。。。已經到極限了嗎?
不,“極限挑戰”才剛剛開始,OpenAI在十幾個小時前悄然放出了GPT第三季——《Language Models are Few-Shot Learners》。
paper鏈接:https://arxiv.org/abs/2005.14165
github鏈接:https://github.com/openai/gpt-3
GPT-3依舊延續自己的單向語言模型訓練方式,只不過這次把模型尺寸增大到了1750億,并且使用45TB數據進行訓練。同時,GPT-3主要聚焦于更通用的NLP模型,解決當前BERT類模型的兩個缺點:
對領域內有標簽數據的過分依賴:雖然有了預訓練+精調的兩段式框架,但還是少不了一定量的領域標注數據,否則很難取得不錯的效果,而標注數據的成本又是很高的。
對于領域數據分布的過擬合:在精調階段,因為領域數據有限,模型只能擬合訓練數據分布,如果數據較少的話就可能造成過擬合,致使模型的泛華能力下降,更加無法應用到其他領域。
因此GPT-3的主要目標是用更少的領域數據、且不經過精調步驟去解決問題。
為了達到上述目的,作者們用預訓練好的GPT-3探索了不同輸入形式下的推理效果:
這里的Zero-shot、One-shot、Few-shot都是完全不需要精調的,因為GPT-3是單向transformer,在預測新的token時會對之前的examples進行編碼。
作者們訓練了以下幾種尺寸的模型進行對比:
實驗證明Few-shot下GPT-3有很好的表現:
最重要的是,GPT-3在Few-shot設定下,在部分NLU任務上超越了當前Fine-tuning的SOTA。該論文長達72頁(Google T5是53頁),第10頁之后都是長長的實驗結果與分析。需要的同學們可以在公眾號后臺回復「0529」獲取下載鏈接。
顯然,GPT-3的模型參數、訓練數據和工作量都是驚人的,論文署名多達31個作者,所有實驗做下來肯定也耗費了不少時間。雖然一直都存在對于大模型的質疑聲音,但我們確確實實從T5、GPT-3這樣的模型上看到了NLP領域的進步,眾多業務也開始受益于離線或者線上的BERT。事物的發展都是由量變到質變的過程,感謝科研工作者們的不懈努力和大廠們的巨額投入,奧利給。
本文收錄于原創專輯:《賣萌屋@自然語言處理》
重磅驚喜:賣萌屋小可愛們苦心經營的 自然語言處理討論群 成立三群啦!掃描下方二維碼,后臺回復「入群」即可加入。眾多頂會審稿人、大廠研究員、知乎大V以及美麗小姐姐等你來撩噢~(手慢
夕小瑤的賣萌屋
_
關注&星標小夕,帶你解鎖AI秘籍
訂閱號主頁下方「撩一下」有驚喜哦
可
能
喜
歡
ACL2020 | 線上搜索結果大幅提升!亞馬遜提出對抗式query-doc相關性模型
別再蒸餾3層BERT了!變矮又能變瘦的DynaBERT了解一下
All in Linux:一個算法工程師的IDE斷奶之路
賣萌屋算法崗面試手冊上線!通往面試自由之路
巨省顯存的重計算技巧在TF、Keras中的正確打開方式
硬核推導Google AdaFactor:一個省顯存的寶藏優化器
總結
以上是生活随笔為你收集整理的GPT-3诞生,Finetune也不再必要了!NLP领域又一核弹!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 卖萌屋学术站开放注册啦!寻募种子用户,超
- 下一篇: 知乎搜索框背后的Query理解和语义召回