LSTM之父重提30年前的「快速权重存储系统」:线性Transformer只是它的一种变体...
作者|陳萍、維度
?來源|機器之心
來自瑞士人工智能實驗室、亞琛工業(yè)大學的研究者建立了線性(核)注意力與快速權(quán)重存儲系統(tǒng)之間的內(nèi)在聯(lián)系,并提出更新規(guī)則,在合成檢索問題、機器翻譯、語言模型等實驗上性能優(yōu)越。
Transformer 在深度學習中占據(jù)主導地位,但二次存儲和計算需求使得 Transformer 的訓練成本很高,而且很難使用。許多研究都嘗試線性化核心模塊:以 Performer 為例,使用帶核的注意力機制。然而,這種方法還存在很多缺點,例如它們依賴于隨機特征。
本文中,來自瑞士人工智能實驗室(IDSIA)、亞琛工業(yè)大學的研究者建立起了線性(核)注意力與 90 年代深度學習之父 Jürgen Schmidhuber 推廣的更古老的快速權(quán)重存儲系統(tǒng)之間的內(nèi)在聯(lián)系,不僅指出了這些算法的基本局限性,還提出了新的更新規(guī)則和新的核來解決這些問題。在關(guān)鍵的綜合實驗和實際任務(wù)中,所得到的模型優(yōu)于 Performers。
論文鏈接:
https://arxiv.org/abs/2102.11174
代碼地址:
https://github.com/ischlag/fast-weight-transformers
具體而言,該研究推測線性化的 softmax 注意力變量存在存儲容量限制。在有限存儲的情況下,快速權(quán)重存儲模型的一個理想行為是操縱存儲的內(nèi)容并與之動態(tài)交互。
受過去對快速權(quán)重研究的啟發(fā),研究者建議用產(chǎn)生這種行為的替代規(guī)則替換更新規(guī)則。此外,該研究還提出了一個新的核函數(shù)來線性化注意力,平衡簡單性和有效性。他們進行了大量的實驗,實驗內(nèi)容包括合成檢索問題、標準機器翻譯以及語言建模。實驗結(jié)果證明了該研究方法的益處。
將線性 Transformer 作為快速權(quán)重系統(tǒng)進行分析和改進
將線性 Transformer 變量視為快速權(quán)重系統(tǒng),研究者給出了兩個見解:作為關(guān)聯(lián)存儲容量的限制;無法編輯以前存儲的關(guān)聯(lián)內(nèi)容。
容量限制
不斷地將新的關(guān)聯(lián)添加到有限大小的存儲中,如下公式 17 所示,這樣不可避免地會達到極限。在線性注意力中,信息存儲在矩陣中,并使用矩陣乘法進行檢索(如下公式 19)。因此,為了防止關(guān)聯(lián)在檢索時相互干擾,各個鍵(keys)需要正交。否則,點積將處理多個鍵并返回值的線性組合。對于嵌入在 d_dot 空間中的鍵,則不能有多余 d_dot 正交向量。
也就是說,存儲多個 d_dot 關(guān)聯(lián)將導致檢索誤差。在線性 Transformer 中,當序列長度大于 d_dot 時,模型可能處于這樣一種容量過剩狀態(tài)。
改進與更新
受快速權(quán)重存儲研究(Schlag 等人,2021 年)的啟發(fā),研究者提出了以下存儲更新規(guī)則。
給定新的輸入鍵 - 值對 (k^ (i) , v ^(i) ),模型首先訪問存儲的當前狀態(tài) W^(i?1),并檢索當前與鍵 k^(i) 配對的值。然后,該模型存儲檢索值和輸入 v^(i) 的凸組合,使用插值權(quán)重 0≤β^(i)≤1 的輸入 v ^(i) 也由該模型生成。因此,該模型按順序?qū)⑤斎胄蛄修D(zhuǎn)化為輸出序列,如下所示:
歸一化:在以上等式中,檢索的值沒有應(yīng)用歸一化。通過推導可以得到一個簡單的歸一化,即通過引入累加器(accumulator):
將公式 20、25 分別替換為:
然而,這種方法也有缺陷。首先,公式 26 中正值的累積總是隨著步數(shù)的增加而增加,并且可能導致不穩(wěn)定;其次,特別是對于該研究提出的更新規(guī)則,這種歸一化不足以平衡公式 23 中寫入和刪除運算之間的權(quán)重(參見附錄 A.2 中的推導)。
在這里,研究者提出了一種基于簡單歸一化的更好方法,將有效值和查詢向量φ(k^(i))、φ(q^(i)) 除以其分量之和。例如,對于查詢:
線性注意力函數(shù)
Katharopoulos 線性注意力
Katharopoulos 等人提出使用簡單的逐元素 ELU + 1 函數(shù)(Clevert 等人, 2016):
選擇 ELU 而不是 ReLU 的動機是因為負數(shù)部分的非零梯度。重要的是,作為一個簡單的函數(shù),這個Φ函數(shù)保留了輸入鍵向量(d_key=d_dot)的維數(shù),而不需要修改第 4.1 節(jié)中討論的存儲容量。
DPFP
前面兩小節(jié)強調(diào)了現(xiàn)有Φ函數(shù)的次優(yōu)性。采樣會給 FAVOR + 增加額外的復雜度,而線性 Transformer 缺乏投影點積維數(shù)的能力。因此,研究者提出了一種稱為確定性無參數(shù)投影(deterministic parameter-free projection, DPFP) 的替代方法。它是確定性的,并像線性 Transformer 一樣易于計算,同時增加點積維數(shù),而不需要 FAVOR + 的隨機特性。
下圖中四維空間的元素被顯示為四個彩色表面的 z 分量,以及 2d 平面中的每個向量如何在 4d 空間中具有單個非零分量,并將輸入空間平均分割為在投影空間中正交的四個區(qū)域。
實驗
該研究從三個方面進行了實驗:合成檢索問題、機器翻譯和語言模型。
合成檢索問題
所有模型都以最小批次 32 進行訓練,直到評估損失降到 0.001 以下,或者進行了 1000 訓練步。下圖 2 展示了模型的最佳驗證集性能以及對不同 S 的顯示。唯一鍵的數(shù)量初始值 S=20,然后每次遞增 20,直到 S=600 為止。實驗對以下模型進行對比:Softmax、線性注意力、具有 64、128 和 512 個隨機特征的 FAVOR + 以及ν∈{1、2、3} 的 DPFP-ν。
下圖 3 展示了學習曲線。實驗結(jié)果表明,該研究提出的更新規(guī)則優(yōu)于其他變體。正如預期的那樣,基線總和更新規(guī)則失敗。
機器翻譯
下表 1 顯示了 BLEU 得分結(jié)果。當樣本數(shù) m 足夠大時(當 d_dot=512,m=256),Performer 與基礎(chǔ) Transformer 性能相當。實際上,當 d_key=64 時,m 的推薦值是 d_dot log(d_dot)=266。當 d_dot 相對較小時,該研究的 DPFP 模型優(yōu)于線性 Transformer 和 Performer;在簡單性和性能之間提供了一個很好的折衷。
語言模型
該研究使用標準 WikiText-103(Merity 等,2017)數(shù)據(jù)集進行實驗。WikiText-103 數(shù)據(jù)集由維基百科的長文組成;訓練集包含大約 28K 篇文章、總共 103M 個單詞。這將產(chǎn)生約 3600 個單詞的上下文文本塊。驗證集和測試集也包含類似的長依賴關(guān)系,分別有 218K 和 246K 個運行單詞,對應(yīng) 60 篇文章,詞匯量約為 268K 個單詞。下表 2 展示了在該研究更新規(guī)則下,WikiText-103 語言模型的困惑度結(jié)果。
在下表 3 中,使用該研究更新規(guī)則下的 Transformer(medium 配置),在 WikiText-103 語言模型的困惑度結(jié)果。
在下表 4 中,WikiText-103 語言模型在沒有截斷上下文的情況下訓練和評估模型的困惑度,這與上表 2 中上下文窗口受到限制的情況相反。medium 配置既不用于位置編碼,也不用于注意力標準化。
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
與50位技術(shù)專家面對面20年技術(shù)見證,附贈技術(shù)全景圖總結(jié)
以上是生活随笔為你收集整理的LSTM之父重提30年前的「快速权重存储系统」:线性Transformer只是它的一种变体...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 股息红利差异扣税什么意思
- 下一篇: 基金产品风险特征由低到高 投资时要关注