胶囊网络(Capsule Network)在文本分类中的探索
作者丨楊敏
單位丨中國科學院深圳先進技術研究院助理研究員
研究方向丨自然語言處理
文本建模方法大致可以分為兩類:(1)忽略詞序、對文本進行淺層語義建模(代表模型包括 LDA,EarthMover’s distance等); (2)考慮詞序、對文本進行深層語義建模(深度學習算法,代表模型包括 LSTM,CNN 等)。
在深度學習模型中,空間模式(spatial patterns)匯總在較低層,有助于表示更高層的概念(concepts)。例如,CNN 建立卷積特征檢測器提取來自局部序列窗口的模式,并使用 max-pooling 來選擇最明顯的特征。然后,CNN 分層地提取不同層次的特征模式。
然而,CNN 在對空間信息進行建模時,需要對特征檢測器進行復制,降低了模型的效率。正如(Sabouret al, 2017)所論證的那樣,這類方法所需復制的特征檢測器的個數或所需的有標簽訓練數據的數量隨數據維度呈指數增長。
另一方面,空間不敏感的方法不可避免地受限于豐富的文本結構(比如保存單詞的位置信息、語義信息、語法結構等),難以有效地進行編碼且缺乏文本表達能力。
最近,Hinton 老師等提出了膠囊網絡(Capsule Network), 用神經元向量代替傳統神經網絡的單個神經元節點,以 Dynamic Routing 的方式去訓練這種全新的神經網絡,有效地改善了上述兩類方法的缺點。
正如在人類的視覺系統的推理過程中,可以智能地對局部和整體(part-whole)的關系進行建模,自動地將學到的知識推廣到不同的新場景中。
到目前為止,并沒用工作將 Capsule Network 應用于自然語言處理中(e.g., 文本分類)。
我們針對 Capsule Network?在文本分類任務上的應用做了深入研究。對于傳統的分類問題,Capsule Network?取得了較好性能,我們在 6 個 benchmarks 上進行了實驗,Capsule Network?在其中 4 個中取得了最好結果。
更重要的是,在多標簽遷移的任務上(fromsingle-label to multi-label text classification),Capsule Network?的性能遠遠地超過了 CNN 和 LSTM。
我們的工作已經發表在 arXiv上,論文名為 Investigating Capsule Networks with Dynamic Routing for Text Classificationm,更多細節可以點擊閱讀原文進行參考。我們會在論文發表后公開源碼。?
論文模型
文本主要研究膠囊網絡在文本分類任務上的應用,模型的結構圖如下:
其中,連續兩個卷積層采用動態路由替換池化操作。動態路由的具體細節如下:
在路由過程中,許多膠囊屬于背景膠囊,它們和最終的類別膠囊沒有關系,比如文本里的停用詞、類別無關詞等等。因此,我們提出三種策略有減少背景或者噪音膠囊對網絡的影響。?
1. Orphan 類別:在膠囊網絡的最后一層,我們引入 Orphan 類別,它可以捕捉一些背景知識,比如停用詞。在視覺任務加入 Orphan 類別效果比較有限,因為圖片的背景在訓練和測試集里往往是多變的。然而,在文本任務,停用詞比較一致,比如謂詞和代詞等。?
2. Leaky-Softmax:除了在最后一層引入 Orphan 類別,中間的連續卷積層也需要引入去噪機制。對比 Orphan 類別,Leaky-Softmax 是一種輕量的去噪方法,它不需要額外的參數和計算量。?
3. 路由參數修正:傳統的路由參數,通常用均與分布進行初始化,忽略了下層膠囊的概率。相反,我們把下層膠囊的概率當成路由參數的先驗,改進路由過程。 在 ablation test 中,我們對改進的路由和原始路由方法進行對比,如下:
此外,為了提升文本性能,我們引入了兩種網絡結構,具體如下:
實驗
數據集:為了驗證模型的有效性,我們在 6 個文本數據集上做測試,細節如下:
在實驗中,我們和一些效果較好的文本分類算法進行了對比。由于本文的重點是研究 Capsule Network 相對已有分類算法(e.g.,LSTM, CNN)是否有提升,我們并沒有與網絡結構太過復雜的模型進行對比。實驗結果如下:
此外,我們重點進行了多標簽遷移實驗。我們將 Rueter-21578 數據集中的單標簽樣本作為訓練數據,分別在只包含多標簽樣本的測試數據集和標準測試數據集上進行測試。詳細的數據統計以及實驗結果如下圖所示。
從表中我們可以看出,當我們用單標簽數據對模型進行訓練,并在多標簽數據上進行測試時,Capsule Network 的性能遠遠高于 LSTM、CNN 等。
此外,我們還做了 case study 分析,發現路由參數可以表示膠囊的重要性,并對膠囊進行可視化(此處我們主要可視化 3-gram 的結果)。
具體來說,我們刪除卷積膠囊層,將 Primary Capsule Layer 直接鏈接到 Fully-connected Capsule Layer,其中 Primary Capsule 代表了 N-gram 短語在 Capsule 里的形式,Capsule 之間的鏈接強度代表了每個 Primary Capsule 在本文類別中的重要性(比較類似并行注意力機制)。
由圖我們可以看出,對于 Interest Rate 類別,months-interbank-rate 等 3-grams 起著重要作用。
致謝
感謝 jhui 和蘇劍林,他們的文章啟發了我們的工作。感謝 naturomics 和 gyang274 的開源代碼,讓我們的開發過程變得高效。
[1] https://jhui.github.io/2017/11/14/Matrix-Capsules-with-EM-routing-Capsule-Network/
[2] https://spaces.ac.cn/archives/4819
[3] https://github.com/bojone/Capsule
[4] https://github.com/naturomics/CapsNet-Tensorflow
主要參考文獻
[1] Dynamic Routing Between Capsules
[2] Matrix Capsules with Em Routing
點擊以下標題查看相關文章:?
揭開迷霧,來一頓美味的「Capsule」盛宴
再來一頓賀歲宴 | 從K-Means到Capsule
三味Capsule:矩陣Capsule與EM路由
#投 稿 通 道#
投稿須知 | 讓你的文字被很多很多很多人看到
? ? ? ? ??
?我是彩蛋
?解鎖新功能:熱門職位推薦!
PaperWeekly小程序升級啦
今日arXiv√猜你喜歡√熱門職位√
找全職找實習都不是問題
?
?解鎖方式?
1. 識別下方二維碼打開小程序
2. 用PaperWeekly社區賬號進行登陸
3. 登陸后即可解鎖所有功能
?職位發布?
請添加小助手微信(pwbot02)進行咨詢
?
長按識別二維碼,使用小程序
*點擊閱讀原文即可注冊
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 查看論文
總結
以上是生活随笔為你收集整理的胶囊网络(Capsule Network)在文本分类中的探索的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 新型RNN:将层内神经元相互独立以提高长
- 下一篇: 脑洞大开的机器视觉多领域学习模型结构 |