當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

1000层的Transformer，诞生了！

發布時間：2024/7/5 编程问答 36 豆豆

生活随笔收集整理的這篇文章主要介紹了 1000层的Transformer，诞生了！小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

賣萌屋今日學術精選

大家好，我是賣萌醬。

今天下午賣萌屋作者群里一位MILA實驗室的大佬在臨睡前（蒙特利爾時間凌晨0點半）甩出來一篇論文：

大佬表示太困了，肝不動了，于是賣萌醬左手抄起一罐咖啡，右手接過論文就開始肝了，必須第一時間分享給賣萌屋的讀者小伙伴們！

論文鏈接：
https://arxiv.org/pdf/2203.00555.pdf

首先，把Transformer模型訓深最大的問題是什么？

耗顯存？

訓練慢？

都不是！最大的問題是壓根就不收斂啊...

所以這篇論文最關鍵的貢獻就是提出了一種新的Normalization方式——DeepNorm，有效解決了Transformer訓練困難的問題。

其實早在2019年，就有研究者針對Transformer訓練困難的問題，提出了Pre-LN來提升Transformer的訓練穩定性，但是隨后有人發現，Pre-LN會導致模型底層的梯度比頂層的還要大，這顯然是不合理的，因此往往訓練出的模型效果不如傳統的Post-LN。

盡管后續也有一些補丁來試圖解決這些問題，但這些既有的嘗試都只能讓Transformer的模型深度最多訓練到幾百層，始終無法突破千層的天花板。

本文提出的DeepNorm，則成功打破了這個天花板。

DeepNorm

從以上DeepNorm偽代碼實現中，可以看到這確實是simple but effective的方法，作者也給出了幾個不同場景下的參數經驗取值。

效果層面，作者在機器翻譯benchmark上做了實驗：

可以看到隨著模型深度從10層到100層再到1000層，機器翻譯BLEU指標持續上升。

而在與前人工作的比較上，200層的DeepNet（3.2B參數量）比Facebook M2M 48層的矮胖大模型（12B參數量）有足足5個點的BLEU值提升。

此外，作者表示將來會嘗試將DeepNet往更多NLP任務上遷移（包括預訓練語言模型），期待DeepNet能給NLP帶來下一波春天！

上期回顧：
別再雙塔了！谷歌提出DSI索引，檢索效果吊打雙塔，零樣本超BM25！

后臺回復關鍵詞【入群】

加入賣萌屋NLP/IR/Rec與求職討論群

后臺回復關鍵詞【頂會】

獲取ACL、CIKM等各大頂會論文集！

以上是生活随笔為你收集整理的1000层的Transformer，诞生了！的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。