1000层的Transformer,诞生了!
賣萌屋今日學術精選
大家好,我是賣萌醬。
今天下午賣萌屋作者群里一位MILA實驗室的大佬在臨睡前(蒙特利爾時間凌晨0點半)甩出來一篇論文:
大佬表示太困了,肝不動了,于是賣萌醬左手抄起一罐咖啡,右手接過論文就開始肝了,必須第一時間分享給賣萌屋的讀者小伙伴們!
論文鏈接:
https://arxiv.org/pdf/2203.00555.pdf
首先,把Transformer模型訓深最大的問題是什么?
耗顯存?
訓練慢?
都不是!最大的問題是壓根就不收斂啊...
所以這篇論文最關鍵的貢獻就是提出了一種新的Normalization方式——DeepNorm,有效解決了Transformer訓練困難的問題。
其實早在2019年,就有研究者針對Transformer訓練困難的問題,提出了Pre-LN來提升Transformer的訓練穩定性,但是隨后有人發現,Pre-LN會導致模型底層的梯度比頂層的還要大,這顯然是不合理的,因此往往訓練出的模型效果不如傳統的Post-LN。
盡管后續也有一些補丁來試圖解決這些問題,但這些既有的嘗試都只能讓Transformer的模型深度最多訓練到幾百層,始終無法突破千層的天花板。
本文提出的DeepNorm,則成功打破了這個天花板。
DeepNorm從以上DeepNorm偽代碼實現中,可以看到這確實是simple but effective的方法,作者也給出了幾個不同場景下的參數經驗取值。
效果層面,作者在機器翻譯benchmark上做了實驗:
可以看到隨著模型深度從10層到100層再到1000層,機器翻譯BLEU指標持續上升。
而在與前人工作的比較上,200層的DeepNet(3.2B參數量)比Facebook M2M 48層的矮胖大模型(12B參數量)有足足5個點的BLEU值提升。
此外,作者表示將來會嘗試將DeepNet往更多NLP任務上遷移(包括預訓練語言模型),期待DeepNet能給NLP帶來下一波春天!
上期回顧:
別再雙塔了!谷歌提出DSI索引,檢索效果吊打雙塔,零樣本超BM25!
后臺回復關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復關鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
總結
以上是生活随笔為你收集整理的1000层的Transformer,诞生了!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 聊聊如何提升推荐系统的结果多样性
- 下一篇: 做CV和做NLP,是否都有光明的未来?