SIGIR 2021 | 基于不确定性正则化与迭代网络剪枝的终身情感分类方法
導讀
終身學習能力對于情感分類器處理網絡上連續的意見信息流而言至關重要。然而,執行終身學習對于深度神經網絡來說是困難的,因為持續地訓練可用信息會不可避免地會導致災難性遺忘。發表在信息檢索領域頂會 SIGIR2021 上的一篇論文提出了一種基于不確定性正則化與迭代網絡剪枝的終身情感分類方法。通過迭代地執行帶有不確定性正則化的網絡剪枝,IPRLS 可以使用單個 BERT 模型處理來自多個領域的連續到達的數據,同時避免災難性遺忘。
論文標題:
Iterative Network Pruning with Uncertainty Regularization for Lifelong Sentiment Classification
論文作者:
耿斌宗,中國科學技術大學;楊敏,SIAT-NLP PI;原發杰,原騰訊看點研究員,現任西湖大學表征實驗室PI
論文單位:
中國科學技術大學;SIAT-NLP;西湖大學
論文下載:
https://arxiv.org/abs/2106.11197
代碼及數據:
https://github.com/siat-nlp/IPRLS
介紹
隨著網絡上含有豐富觀點的文檔被大量收集,自動預測給定文本情感極性的情感分類任務受到了越來越多的關注。近年來,深度學習取得了巨大成功,在情感分類領域幾乎占據了主導地位。強大的深層神經網絡必須依賴大量帶注釋的訓練資源。然而,標記大型數據集通常是耗時且勞動密集的,在將經過訓練的分類器應用于新領域時會遭受重大阻礙。
此外,無論收集多少數據訓練情感分類器,都很難覆蓋網絡上所有可能的觀點數據領域。因此,當部署到實際環境中時,訓練得到的情緒分類器性能往往不能令人滿意。生產環境中的情感分類器會遇到連續的信息流,因此需要將其知識擴展到新的領域。
通過掌握新知識并記住以前學到的經驗而持續學習的能力被稱為終身學習或持續學習。終身學習是一項神經網絡長期面臨的挑戰。在終身學習中,很難自動平衡穩定性與可塑性。
一方面,我們期望情感分類器重用先前獲得的知識,但過分關注穩定性可能會妨礙分類器快速適應新任務。另一方面,當分類器過于關注可塑性時,它可能會很快忘記以前獲得的知識。一個可能的解決方案是在處理新任務時有效地重用以前獲得的知識,同時避免忘記以前獲得的知識。也就是說,一方面,鞏固的知識被保留下來,以保持長期的持久性,并防止隨著時間的推移學習新任務時發生災難性遺忘。另一方面,在某些情況下,允許修改或替換舊知識,以提煉新知識并避免知識干擾。
IPRLS 論文提出了一種基于不確定性正則化與迭代網絡剪枝的終身情感分類方法。其采用 BERT 作為情感分類的基礎模型,為解決穩定性可塑性難題,IPRLS充分利用了網絡剪枝和權重正則化技術,將多個順序到來的任務中的重要知識依次集成到單個 BERT 模型中,同時盡可能地避免模型準確度降低。
具體來說,在每一輪剪枝流程中,IPRLS 使用基于權重的剪枝技術,在對某一任務完成訓練后,從 BERT 的每一層中釋放出一定比例的冗余權重,并對釋放的參數進行修改,以學習后續的新任務。在學習新任務時,IPRLS 不像之前的工作 [1,2] 那樣保持舊任務的權重不變,而是將基于貝葉斯在線學習框架的不確定性正則化納入迭代剪枝過程中。
不確定性正則化約束了 BERT 中舊任務權重的變化,從而引導模型優雅地更新舊任務權重,并實現知識的反向遷移。由于有限的體系結構無法確保記住從無限的任務中逐漸學習到的知識,IPRLS 在 BERT 的每個層中并行地添加特定于任務的低維殘差結構來在一定程度上對模型進行擴展,以更好地學習每個新任務的重要知識。
方法
3.1 任務定義
假設情感分類器 已經學習了從 到 的 個序列任務,表示為 。終身情感分類的目標是使用從過去的 個任務中獲得的知識來幫助為任務 學習更好的分類器 ,同時避免忘記從過去的任務中學到的知識。在論文中,每個任務都是一個針對特定領域的情感分類問題,旨在將評論分類為正面或負面。論文互換地使用術語“領域”和“任務”,因為論文中每個任務都來自不同的領域。
3.2 方法概述
IPRLS 使用 BERT 作為基礎模型來構建情感分類器。BERT 是快速發展的預訓練模型的重要代表,它在各種 NLP 任務上表現優異。一般來說,當任務按順序依次到達,BERT 在學習新任務時,會災難性地忘記舊任務。為了緩解災難性遺忘問題,IPRLS 利用基于結構和基于正則化的持續學習方法,提高 BERT 終身情感分類的性能。
具體來說,IPRLS 探索了兩種機制來促進 BERT 模型在學習新任務時保留對之前任務重要的知識。首先是一種帶有不確定性正則化的迭代剪枝方法,將來自多個任務的重要知識整合到一個 BERT 模型中,同時確保最小的準確性下降。其次,在 BERT 的每一層上并行地添加一個特定于任務的并行殘差函數,以在適應新任務的同時進一步保留新任務知識。
3.3 回顧BERT模型
預訓練 BERT 模型的著名特性是,只需對它進行微調即可在各種下游任務上取得先進的性能,而無需對特定于任務的體系結構進行修改。BERT 模型的結構是一個多層雙向 Transformer 編碼器,它由 個相同的層堆疊而成。
每一層包括兩個子層,其中第一層是多頭自注意層,第二層是標準的全連接前饋層。殘差連接被應用于每個連續子層中,只后進行層規范化。多頭注意層是 Transformer 架構的核心,它基于序列中每個元素的隱藏狀態進行轉換。形式上,第 個注意“頭”可計算為:
其中 和 是特定序列元素的隱藏向量。 表示序列長度。 為映射參數。 代表 的維度, 為注意力頭的個數。多頭自注意層記作 ,由 個不同的點乘注意機制組成。通過線性轉換鏈接 個注意頭來計算 :
其中 是映射參數,殘差結構被應用于兩個連續子層間,之后進行層規范化:
其中 表示層規范化。 表示層歸一化后的多頭注意層。
對于第二個子層,將全連接層(FFN)應用于多頭自注意層之后,我們將 定義為標準前饋網絡:
其中 是非線性函數 和 是 FFN 函數中的權重矩陣。最后,將層歸一化應用于 FFN 函數,形成 BERT 層,記作 :
整個 BERT 模型為 12 個 BERT 層的堆疊。每個輸入序列的第一個標記(CLS)的最終隱藏狀態用于轉換為輸出。模型可以利用隨機梯度下降法最小化交叉熵損失 來進行優化。
3.4 不確定性正則化迭代剪枝
方法動機:為了緩解 BERT 模型的災難性遺忘問題,一種可行的方法是保留已學習的舊任務權重,并在訓練新任務時通過增加節點或權重來擴展網絡。直覺上講,有著 (i) 存在于許多領域的通用知識,以及 (ii) 高度特定于子領域的領域特性。這些通用知識可能有助于跨域進行遷移。
在大多數以前的基于體系結構的持續學習方法中,舊任務的權重往往保持不變,只有釋放的權重被用于新任務的學習。由于舊任務的權重保持不變,模型得以保持所有已學習任務的性能。然而,模型固定的舊任務參數隨著任務數量的增加而增加,使得深度模型難以適應新任務。
為了解決上述問題,論文提出了一種新的不確定性正則化迭代剪枝方法(IPR)。在學習新任務時,IPR 不再保持舊任務參數不變,而是將基于貝葉斯在線學習框架 [3] 的不確定性正則化 [4,5] 納入迭代剪枝過程。不確定性正則化約束了 BERT 中舊任務線性變換層的更新,從而引導模型優雅地更新舊任務權重。
論文工作遵循持續學習的場景。情感分類器對一系列無限的任務進行學習。論文使用一個迭代的、三階段的框架來進行終身情感分類。首先,通過對 BERT 模型的所有保留權重應用不確定性正則化來訓練新任務的初始網絡。第二,采用基于權重的剪枝技術用將 BERT 模型中相對不重要的參數進行釋放,以使準確度下降最小。第三,在剪枝后重新訓練網絡,以恢復當前任務的準確度。接下來,我們將詳細介紹這三個模塊。
基于不確定性正則化的初始網絡訓練:假設已經訓練了一個緊湊的可以處理任務 到 的情感分類器,記作 。將為任務 到 保留的參數記為 ,與任務 相關的被釋放的參數為 。令被釋放參數 從 回歸初始值,以用來學習后續的任務。
當需要處理新任務 時,首先在 的基礎上使用任務 的數據訓練初始網絡 ,與 [1,2] 在學習新任務時固定舊任務的保留權重不同,IPR 在保留權重 上利用不確定性正則化 [4] 來保護舊知識不被丟失。值得注意的是被保留的參數 是 BERT 中線性變換層參數(即 ),而這部分參數在 BERT 情感分類任務中起著最重要的作用,因此需要對其更新施加約束。
具體來說,不確定性正則化是基于貝葉斯在線學習框架的。簡單起見,論文使用 來表示帶有不確定性正則化的被保留參數 。 由兩個新參數 和 通過高斯平均場近似進行控制:
其中 代表保留參數 的均值,而 代表標準差。 是控制 影響的超參。 中每個元素都是從標準正態分布 中隨機選擇的標量。 和 可以通過反向傳播進行學習。
論文中采用三種正則化項來對舊任務保留參數的更新進行限制。
首先是一項方差級別的正則化,使得不確定度低(即方差小)的權重參數可以受到較高的正則化強度。在貝葉斯在線學習框架中,我們可以很容易地用方差來對應權重的不確定度,低方差意味著低不確定度。同時,考慮到模塊參數的層間影響,即當來自上一個任務的任何權重在學習新任務期間顯著更新時,當前層將合并來自下一層的更改信息,使得舊任務權重顯著改變,從而損害舊任務表現。形式上, 表示為:
其中 表示按元素對應相乘。 表示 BERT 第 層上所有權重的初始標準差超參數。 和 為層 和任務 的均值和方差權重。 被設置用來控制學習過程的穩定性。
其次, 采用 來用不確定度(方差)對參數權值大小進行加權,從而幫助控制學習過程的穩定性:
這一正則化項傾向于促進稀疏性。
第三,如上所述,和 旨在鼓勵 接近 ,第三項則是希望 能夠接近 ,從而進一步緩解遺忘:
最后,將這三個正則化項結合起來,形成整體的不確定性正則化:
其中 是網絡的層數。總體不確定性正則化損失 之后會與 BERT 初始網絡訓練的交叉熵損失函數 結合。 和 是控制相應正則化項重要程度的超參數。
利用不確定性正則化(三個約束),在學習新任務時,舊任務權重將謹慎而適量地進行更新。一方面,我們可以利用從舊任務中獲得的知識來幫助我們學習一個更好地新任務分類器(即前向知識遷移)。另一方面,由于所有參數在學習新任務時都可以更新,舊任務也可以從新任務學習到的知識中獲益(即反向知識遷移)。
網絡剪枝:我們使用一種基于權重的剪枝技術,在 BERT 模型的每一層中釋放一定比例的權重 ,同時讓性能最小程度地降低。我們讓與任務 相關聯的被釋放參數(即 )從 回歸初始值,其可以被反復修改以學習后續任務。與此同時剩余參數作為任務 的參數 被保留。
不同于大多數根據參數絕對值大小進行剪枝的方法,IPR 利用一種啟發式方法對變分推理學習得到的的網絡權值進行剪枝。具體來說,根據 比例的大小對每一層的權重進行排序,鼓勵模型保留參數絕對值高、不確定性低的權重,在每一輪剪枝中釋放一定比例 較小的權重。需要注意的是,只對保留的屬于當前任務的權值進行剪枝,而不改變舊任務的權值。
網絡重訓練:網絡剪枝會由于網絡連接的突然變化而導致性能下降。當剪枝比例較高時,這一點尤其明顯。為了恢復剪枝后網絡的原始性能,需要對保留權重 進行再訓練。經過重訓練過程,我們可以合并 和 從而得到任務 到 的總體保留權重 。
當對第 個任務執行推斷時,被釋放的權值將被屏蔽,以確保網絡狀態與在訓練期間得到的相匹配。在計算過程中,被釋放的參數 只需以二進制開/關方式進行屏蔽,這使得矩陣乘法的實現更加容易。
如圖 1 所示,初始網絡訓練、網絡剪枝和網絡重訓練過程迭代執行,以學習多個新任務。算法 1 中總結了不確定性正則化迭代網絡剪枝的整體學習過程。
3.5 并行殘差函數
在利用迭代剪枝機制后,舊任務的保留參數被一同用于學習新任務。然而,隨著新任務的不斷增加,保留的參數數量會越來越多。當幾乎所有的參數都被同時使用時,舊任務參數就會像慣性一樣,只有很少的新參數能夠自由調整,從而阻礙新任務的學習。
為了緩解這個問題,論文采用特定于任務的并行殘差函數(PRF)來增加 BERT 的新參數,并幫助它保持從新任務中學習到的重要知識。具體地說,為 BERT 的每一層并行地添加一個低維多頭注意層,這里使用 來表示。PRF 通過映射將隱藏狀態 的維度從 減小到小得多的維度 :
其中 代表 PRF 的多頭注意層。 和 是在 BERT12 層上共享的投影參數,且不具有不確定性正則化懲罰。每個 維的隱藏狀態 會被轉換為 維的表示 ,之后被輸入到多頭注意層 ,最后 會被轉換回 維的隱藏狀態 。
總的來說,在 BERT 中只增加了大約 1.6% 的附加參數。
3.6 整體模型
與標準的 BERT 模型相比,論文將不確定性正則化迭代剪枝(IPR)方法應用于 BERT 中的線性變換層,并增加了并行的低維多頭注意層,最終模型的每一層 被表示為:
其中 和 表示經過剪枝和正則化處理的歸一化后的多頭注意層和全連接層。最后,模型可以和原始的 BERT 模型一樣簡單地通過隨機梯度下降進行優化。
實驗
論文在 16 個常用的情感分類數據集上進行了實驗。前 14 個數據集是從 Amazon 收集的產品評論。IMDB 和 MR 為電影評論。論文將 IPRLS 與三種常用的情感分類模型:Bi-LSTM,TextCNN,BERT,以及常用的持續學習方法:PackNet(基于體系結構),Piggyback 以及 UCL(基于正則化)進行對比。
4.1 整體表現對比
論文在一般的終身/持續學習設定下進行實驗,即來自 16 個不同領域的實驗數據按順序到達,每個數據集被視為一個單獨的任務。在訓練期間以相同的任務順序運行所有方法。在學習完所有 16 個任務后,報告每個領域測試集的分類準確度。
從表中可以看出,傳統的深度學習模型(Bi-LSTM,TextCNN,BERT)表現遠遜于持續學習方法(PackNet, Piggyback,UCL,IPRLS)。比如 BERT 在最后幾個任務上表現與持續學習方法相近,但在最早的幾個任務上則表現很差,這是由于傳統的深度模型并沒有刻意保存舊任務知識,因此會不可避免地遭受災難性遺忘。
為分析 IPRLS 利用舊任務知識提高新任務性能的能力(正向遷移),論文中還報告了 BERT 模型在每一個任務被訓練后重新初始化(為每個任務學習一個單獨的模型)設置下的性能(記為 Re-init)。
持續學習方法中,Piggyback 與 Re-init表現相近,但其二進制掩碼只是為單獨的每個任務進行學習,雖然在某種程度上,Piggyback 可以避免遺忘問題,但同時也失去了正向遷移的能力。PackNet 在早期任務性能的保護上表現突出,但卻越來越難以擬合新任務,尤其在最后一個任務 MR 上僅能達到 80.25% 的準確度,遠低于 IPRLS 的 84.33%。
這是因為隨著舊任務數量的增長,保留的參數數量不斷增加,可用于新任務的參數越來越少,使得模型適應新任務的能力降低。UCL 則相反,雖然在最后幾個任務上表現優異,但舊任務表現卻出現了較大程度的遺忘問題。IPRLS 則在早期和后期的任務上都有不錯的表現,很好地緩解了穩定性-可塑性困境。
4.2 中間狀態的可視化分析
圖 2 展示了在學習完任務 后,各方法在任務 到 上的平均準確率。可以看到,BERT 雖然相比 Bi-LSTM 和 TextCNN 有著巨大的性能優勢,但在持續學習過程中,發生災難性遺忘后表現卻會一落千丈。而持續學習方法則可以在此過程中保持相對穩定的準確性。而 IPRLS 相比于其他方法更為穩定,尤其是在后面幾個任務的表現上。
4.3 反向遷移
圖 6 以任務 為例展示了模型在學習過程中舊任務性能的變化。以第一個任務為例,可以發現 BERT 在學習第 5 個任務后準確率大幅下降,這是因為該任務和之前的任務之間有較大的沖突。
然而,IPRLS 可以在整個學習過程中保持穩定的準確率。另外,IPRLS 在學習完多個任務后,某些任務的準確率有了輕微的提高,尤其是任務 2。這表明 IPRLS 具備反向遷移的能力,即可以通過學習新任務提升舊任務表現。
4.4 前向遷移
圖 3 匯報了各持續學習方法在按順序學完任務 后相較 Re-init 的準確率差值。
可以發現,PackNet 在學習任務數增加后將難以獲得正向的性能收益,Piggyback 也通常無法超過 Re-init 的表現。而 IPRLS 則同時具備前向以及反向遷移能力。
4.5 其他實驗
消融實驗以及任務順序對 IPRLS 的影響等可以查閱論文相關部分。
總結
IPRLS 提出了一種基于不確定性正則化的迭代剪枝方法,以提高情感分類任務在持續學習場景下的性能。通過為 BERT 的每一層添加低維并行殘差函數,只需少量附加參數就可以幫助模型更好地學習特定于任務的知識。在 16 個領域情感分類數據集上的實驗結果證明了 IPRLS 的有效性。
參考文獻
[1] Arun Mallya and Svetlana Lazebnik. 2018. Packnet: Adding multiple tasks to a single network by iterative pruning. In CVPR. 7765–7773.
[2] Andrei A Rusu, Neil C Rabinowitz, Guillaume Desjardins, Hubert Soyer, James Kirkpatrick, Koray Kavukcuoglu, Razvan Pascanu, and Raia Hadsell. 2016. Progressive neural networks. arXiv preprint arXiv:1606.04671(2016).
[3] Manfred Opper and Ole Winther. 1998. A Bayesian approach to on-line learning. On-line learning in neural networks(1998), 363–378.
[4] Hongjoon Ahn, Sungmin Cha, Donggyu Lee, and Taesup Moon. 2019. Uncertainty-based continual learning with adaptive regularization. InNeurIPS. 4392–4402.
[5] Charles Blundell, Julien Cornebise, Koray Kavukcuoglu, and Daan Wierstra. 2015. Weight uncertainty in neural networks. arXiv preprint arXiv:1505.05424(2015).
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的SIGIR 2021 | 基于不确定性正则化与迭代网络剪枝的终身情感分类方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 最新综述!基于图神经网络的关系抽取技术
- 下一篇: 在农村适合开什么小店比较好 教你选择适