谷歌自锤Attention:纯注意力并没那么有用,Transformer组件很重要
作者|魔王
?來源|機器之心
基于注意力的架構為什么那么有效?近期谷歌等一項研究認為注意力并沒有那么有用,它會導致秩崩潰,而網絡中的另兩個組件則發揮了重要作用:「跳過連接」有效緩解秩崩潰,「多層感知器」能夠降低收斂速度。此外,該研究還提出了一種理解自注意力網絡的新方式——路徑分解。
基于注意力的架構在機器學習領域已經非常普遍,但人們對其有效性原因的理解仍然有限。
最近,來自谷歌和瑞士洛桑聯邦理工學院(EPFL)的研究者提出了一種理解自注意力網絡的新方式:將網絡輸出分解為一組較小的項,每個項包括一系列注意力頭的跨層操作。基于該分解,研究者證明自注意力具備強大的「token uniformity」歸納偏置。
也就是說,如果沒有跳過連接(skip connection)或多層感知器(MLP),其輸出將雙指數級收斂至秩 1 矩陣。另外,跳過連接和 MLP 還可以阻止輸出的衰退。該研究在不同 Transformer 變體上的實驗證實了這一收斂現象。
論文地址:https://arxiv.org/pdf/2103.03404.pdf
項目地址:https://github.com/twistedcubic/attention-rank-collapse
純注意力以雙指數級速率丟失秩
注意力機制最初旨在更好地學習長程序列知識,在 Transformer 網絡中得到了有效使用。之后,基于注意力的架構逐漸滲透到多個機器學習應用領域,如自然語言處理、語音識別和計算機視覺。因此,開發一些工具,來理解 Transformer 和注意力的內在工作機制是非常重要的,這既可以幫助理解現有的模型,又能為未來設計更高效的模型做準備。
該研究對此類網絡的操作和歸納偏置提供了新的見解。研究者驚訝地發現純自注意力網絡(SAN)——即不具備跳過連接(skip connection)和多層感知器(MLP)的 Transformer,會損失一部分表達能力,其損失程度與網絡深度成雙指數級關聯。具體而言,研究者證明網絡輸出以三次方收斂速度收斂至秩 1 矩陣。
研究者利用隨機矩陣的特性部分地推導出收斂界限,但其結果超出了想象。利用特殊堆疊自注意力模塊的級聯效應,研究者發現這類網絡的收斂速度比標準理論所描述的快指數級。
此外,盡管之前有研究考慮了單個自注意力矩陣的秩,但該研究認為其結果首次說明了整個網絡收斂至秩 1 矩陣的條件。
注意力機制不給力,Transformer 憑什么那么有效呢?
問題來了:如果 Transformer 的自注意力機制不給力,又是什么賦予了它優秀的能力呢?
該研究分析了三個重要組件:跳過連接、MLP 和層歸一化,結果表明,跳過連接能夠有效地緩解秩崩潰(rank collapse),MLP 則通過增加利普希茨常數來降低收斂速度。
MLP 的作用。
研究者通過證明在類 Transformer 的 SAN 架構變體上的收斂行為的上下界,描述了這些反作用力。研究結果揭示了跳過連接此前不為人知的重要作用,它的作用可不只是促進優化和梯度流動。
跳過連接的下界。
路徑分解
在分析過程中,研究者提出了一種新的路徑分解方式來研究自注意力網絡。他們將 SAN 分解為弱耦合路徑的線性組合,每一條「路徑」對應一個深度單頭 SAN。
直觀來看,我們可以將原始網絡中每一層的自注意力頭看作不同的 gateway,一條路徑遵循一系列 gateway 選擇,每層一個 gateway(參見圖 1)。結合秩崩潰分析,該研究結果表明具備跳過連接的深度 SAN 類似于多個弱相依淺層網絡的集成。
該研究的主要貢獻如下:
1. 系統研究了 Transformer 的構造塊,揭示自注意力與其反作用力(跳過連接和 MLP)之間的對抗影響。這揭示了跳過連接在促進優化之外的重要作用。
2. 提出一種通過路徑分解來分析 SAN 的新方法,發現 SAN 是多個淺層網絡的集成。
3. 在多個常見 Transformer 架構上進行實驗,從而驗證其理論。
實驗
該研究首次在多個知名 Transformer 架構中測試了秩崩潰現象,用圖示的方式表示一些 Transformer 變體的歸納偏置,并測試了路徑有效性。
真實架構中的秩崩潰
為了驗證其理論預測,研究者檢查了三個知名 Transformer 架構的殘差,分別是 BERT、Albert 和 XLNet。下圖 2 繪制了網絡訓練前后每個層輸出的相對殘差:
該實驗確認,移除跳過連接后,所有網絡均出現快速秩崩潰。盡管 MLP 在緩解收斂方面似乎沒太大幫助,但研究者注意到這一觀察未必準確反映 Transformer 的運作原理:移除跳過連接會導致 MLP 輸入出現極大的分布偏移。研究者希望網絡重新訓練會降低收斂速度。
可視化不同架構的偏差
為了實驗驗證 Transformer 架構不同組件的歸納偏置,研究者探索了循環使用單層 Transformer 來預測簡單 2D 環狀序列的行為。研究者訓練網絡直到它能夠以接近 0 的損失記住環狀軌跡上的下一步。下圖 3 展示了模型在推斷時預測的軌跡:
路徑的有效性
SAN 可被視作多個不同長度(從 0 到 L)路徑的集成,每一個路徑包含不同的自注意力頭序列。該研究對具備跳過連接的 SAN 進行的分析表明,路徑有效性會隨著路徑長度的增加而降低,即使涉及的非線性運算數量增加了。為了驗證這一假設,研究者將不同長度的路徑分隔開,并評估其預測能力。
下圖 4 展示了在序列記憶(Sequence memorization)、學習分類(Learning to sort)和凸包預測(Convex hull prediction)三項任務中的性能。研究者測試了不同的子集,并報告了五次重復試驗的均值和標準差。至于推斷,研究者還繪制了樸素分類器和整個訓練模型(路徑分解前)的準確率。
從上圖中可以看到,短路徑具備較強的預測能力,長度為 1 的路徑在記憶、分類和凸包任務中分別獲得了超過 0.8、0.6、0.65 的準確率。而較長路徑的輸出準確率并不比隨機猜測好多少。由于凸包任務中存在類別不均衡現象,研究者使用多數類預測器來獲取隨機基線。盡管凸包任務中長短路徑的準確率差異沒那么大,但研究者觀察到長路徑的方差明顯更大,這表明其比隨機猜測好不了太多。長度為 0 的路徑方差很小,但未獲得和任務相關的有用信息(很可能是因為它們沒有窮盡全局信息)。
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的谷歌自锤Attention:纯注意力并没那么有用,Transformer组件很重要的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 增值税发票种类显示不全(增值税发票种类)
- 下一篇: 房产公证需要什么手续和条件(房产公证需要