论文学习21-Globally Normalized Transition-Based Neural Networks(2016,标签偏差问题
文章目錄
- abstract
- 1.introduction
- 2.Model
- 2.1 Transition System
- 2.2 全局和局部歸一化
- 3.訓練
- 3.2標簽偏差問題
abstract
介紹了一種基于全局規范化轉換的神經網絡模型,該模型實現了最先進的詞性標注、依存分析和句子壓縮結果。我們的模型是一個簡單的前饋神經網絡,它運行在一個特定于任務的轉換系統上,但與遞歸模型相比,它的準確性更好。我們討論了全局規范化相對于局部規范化的重要性:一個關鍵的觀點是,標簽偏差問題意味著全局規范化模型可以比局部規范化模型更嚴格地表達。
- 基于全局規范化轉換的神經網絡模型
- 前饋神經網絡
- 全局規范化模型可以解決標簽偏差問題
- 標簽偏差問題(標簽不均衡造成的,使得模型傾向于標注同一個標簽)/不考慮上下文的棱模兩可的情況。
- 這個問題是:在訓練語料中,a轉移b的概率,大于a轉移到c的概率,造成在進行測試時,始終只能出現a到b狀態。
- lstm_crf中也遇到過,參考資料,我加上了個tanh層就好了(大概也類似于全局規范化的感覺)。
- crf可以解決標簽偏置問題,但是貌似transition偏差過大的情況還是無法解決,所以加個tanh收縮一下?這種感覺大概?
1.introduction
- lstm很有效
- 本文證明了:全局最優化的前饋神經網絡可以達到比lstm更好的效果
- 本文model使用transition system (Nivre, 2006)和特性嵌入(Chen and Manning (2014).)
- 集束搜索
- CRF(全局歸一化)
- 梁推斷beam inference
- early updates
- loss:CRF的loss反傳
- 反傳時,訓練全部參數
- 全局好于局部
我們不使用任何遞歸式,而是使用束搜索來維持多個假設,并引入條件隨機域(CRF)目標的全局歸一化(Bottou et al., 1997;勒昆等,1998;Lafferty等人,2001;為了克服局部規范化模型所遭受的標簽偏差問題。由于我們使用梁推斷,我們通過對梁中的元素求和來近似配分函數,并使用早期的更新(Collins和Roark, 2004;周等,2015)。我們基于這個近似全局歸一化計算梯度,并基于CRF損耗對所有神經網絡參數進行完整的反向傳播訓練。
在第3節中,我們將重新討論標簽偏差問題,以及全局規范化模型比局部規范化模型更嚴格地表達的含義。前向功能可以部分地緩解這種差異,但不能完全彌補這一點,我們稍后再回來。為了實證地證明全局規范化的有效性,我們評估了我們的模型在詞性標注、語法依賴解析和句子壓縮(第4節)方面的效果。特別是在《華爾街日報》(the Wall Street Journal)的依賴關系分析中,我們獲得了94.61%的未標記依賴評分,這是有史以來發表得最好的一次。
正如在第5節中更詳細地討論的,我們還優于以前用于基于神經網絡轉換的解析的結構化訓練方法。我們的燒蝕實驗表明,我們的性能優于Weiss等人(2015)和Alberti等人(2015),因為我們對所有的模型參數進行了全局反向傳播訓練,而他們在訓練模型的全局部分時固定了神經網絡參數。
我們也超過了Zhou等人(2015),盡管使用了更小的光束。為了進一步說明標簽偏差問題,我們提供了一個句子壓縮的例子,其中局部模型完全失敗。然后,我們演示了一個沒有任何前向特性的全局規范化解析模型幾乎與我們的最佳模型一樣準確,而局部規范化模型在準確性上損失了10%以上的絕對準確性,因為它不能有效地合并可用的證據。
最后,我們提供了一個名為SyntaxNet的方法的開源實現,我們將其集成到流行的TensorFlow2框架中。我們還提供了一個預先培訓的、最先進的英語依賴解析器,名為“Parsey McParseface”,我們對它進行了調優,以平衡速度、簡單性和準確性。
2.Model
我們的模型的核心是一個基于增量轉換的解析器(Nivre, 2006)。要將其應用于不同的任務,我們只需要調整轉換系統和輸入特性。
2.1 Transition System
2.2 全局和局部歸一化
- ZL是局部歸一化
- 用集束搜索來找上面最大化的解
- CRF:(全局歸一化)
3.訓練
- 再用上beam-search和early-update
3.2標簽偏差問題
直觀地說,我們希望該模型能夠修改在搜索過程中做出的早期決策,當稍后的證據可用時,可以排除早期決策不正確的可能性。乍一看,與波束搜索或精確搜索相結合使用的局部規范化模型似乎能夠修改早期的決策。然而,標簽偏差問題(見Bottou (1991), Collins(1999)第222-226頁,Lafferty et al. (2001), Bottou and LeCun (2005), Smith and Johnson(2007))意味著局部規范化模型修改早期決策的能力非常弱。
本節通過證明全局規范化模型比局部規范化模型更嚴格地表達性,給出了關于標簽偏差問題的正式觀點。這個定理最初是由史密斯和約翰遜(2007)提出的。
作為證據的這個例子清楚地說明了標簽偏差問題
全局模型可以比局部模型更嚴格地表達,考慮一個標記問題,其中的任務是將輸入序列x1:n映射到決策序列d1:n。首先,考慮一個局部規范化模型,在對決策di進行評分時,我們將評分函數限制為僅訪問第一個i輸入符號x1:i。我們將很快回到這個限制。得分函數ρ否則會是一個元組的任意函數
- 標兩種標簽都可以的情況下,局部歸一化無法解決,但是全局歸一化可以考慮上下文得到正確答案。
總結
以上是生活随笔為你收集整理的论文学习21-Globally Normalized Transition-Based Neural Networks(2016,标签偏差问题的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【量化投资1】
- 下一篇: day32 并发编程之锁