论文学习20-End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF(序列标注,2016ACL
文章目錄
- abstract
- 1.introduction
- 2.Architecture
- 2.1 CNN for Character-level Representation
- 2.2 BiLSTM
- 2.2.1 LSTM單元
- 2.2.2BiLSTM
- 2.3CRF
- 2.4BiLSTM-CNNs-CRF
- 3.訓練
Ma, X. and E. Hovy “End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF.”
abstract
最先進的序列標記系統(tǒng)傳統(tǒng)上需要大量的手工特征和數(shù)據(jù)預處理的特定任務的知識。在這篇論文中,我們介紹了一種新的中立網(wǎng)絡架構(gòu),它利用雙向LSTM、CNN和CRF的組合,自動地從字級和字級表示中獲益。我們的系統(tǒng)是真正的端到端的,不需要特征工程或數(shù)據(jù)預處理,因此適用于廣泛的序列標記任務。我們用兩個數(shù)據(jù)集來評估我們的系統(tǒng),這兩個數(shù)據(jù)集分別用于兩個序列標記任務:Penn Treebank WSJ詞性標記語料庫(POS)和CoNLL 2003命名實體識別語料庫(NER)。我們獲得了最先進的性能,這兩個數(shù)據(jù)集的準確性為97.55%的POS標簽和91.21%的F1為NER。
- 利用雙向LSTM、CNN和CRF的組合,自動地從字級和字級表示中獲益
- 端到端,無需特征工程或數(shù)據(jù)預處理
1.introduction
摘要語言序列標記是語言深層理解的第一個階段,如詞性標記和命名實體識別,其重要性已被自然語言處理界所認識。自然語言處理(NLP)系統(tǒng),如句法分析(Nivre and Scholz, 2004;McDonald等人,2005;辜朝明和柯林斯出版社,2010年;馬和趙,2012a;馬和趙,2012b;陳和曼寧,2014;(Ma and Hovy, 2015)和實體共引用解析(Ng, 2010;Ma et al., 2016),正變得越來越復雜,部分原因是利用POS標記或NER系統(tǒng)的輸出信息。
大多數(shù)傳統(tǒng)高性能序列標簽模型是線性統(tǒng)計模型,包括隱馬爾科夫模型(HMM)和條件隨機域(CRF) (Ratinov和羅斯,2009;Passos et al ., 2014;羅et al ., 2015),嚴重依賴于手工特性和taskspecific資源。例如,英語POS涂畫者受益于精心設計的單詞拼寫功能;正字法的特性和外部資源等地名表廣泛應用于ner。然而,這樣的特定于任務的知識是昂貴的開發(fā)(馬和夏,2014),使序列標簽模型難以適應新的任務或新領(lǐng)域。
- 傳統(tǒng):HMM,CRF,手工特征代價昂貴
近年來,以分布式詞表示為輸入的非線性神經(jīng)網(wǎng)絡(又稱詞嵌入)被廣泛地應用于NLP問題,并取得了很大的成功。Collobert等人(2011)提出了一種簡單而有效的前饋中性網(wǎng)絡,通過在固定大小的窗口內(nèi)使用上下文獨立地對每個單詞的標簽進行分類。最近,循環(huán)神經(jīng)網(wǎng)絡(RNN) (Goller and Kuchler, 1996)及其變體,如長短時記憶(LSTM) (Hochreiter and Schmidhuber, 1997;Gers等人(2000)和門控遞歸單元(GRU) (Cho等人,2014)在序列數(shù)據(jù)建模方面取得了巨大成功。針對語音識別(Graves et al., 2013)、詞性標注(Huang et al., 2015)和NER (Chiu and Nichols, 2015)等序列標記任務,提出了幾種基于rnn的神經(jīng)網(wǎng)絡模型;(Hu et al., 2016),實現(xiàn)與傳統(tǒng)模式的競爭績效。然而,即使是使用分布式表示作為輸入的系統(tǒng),也會使用它們來增強而不是取代手工制作的功能(例如單詞拼寫和大小寫模式)。當模型僅僅依賴于神經(jīng)嵌入時,它們的性能會迅速下降。
- 目前都是用nn來增強手工特征,而非取代。
- 僅依靠nn,性能會迅速下降。
本文提出了一種用于序列標記的神經(jīng)網(wǎng)絡結(jié)構(gòu)**它是一個真正的端到端的模型,不需要特定于任務的資源、功能工程或數(shù)據(jù)預處理,只需要在未標記的語料庫上預先訓練好的詞嵌入即可。因此,我們的模型可以很容易地應用于不同語言和領(lǐng)域的序列標記任務。我們首先使用卷積神經(jīng)網(wǎng)絡(convolutional neural networks, CNNs) (LeCun et al., 1989)將一個單詞的字符級信息編碼到它的字符級表示中。然后,我們將字符級和字級表示相結(jié)合,并將它們輸入到雙向LSTM (BLSTM)中,以對每個單詞的上下文信息進行建模。在BLSTM之上,我們使用一個連續(xù)的CRF來聯(lián)合解碼整個句子的標簽。**我們在Penn Treebank的兩個語言序列標記任務上對我們的模型進行了評估(Marcus et al., 1993),和NER對CoNLL 2003共享任務的英語數(shù)據(jù)進行了評估(Tjong Kim Sang和De Meulder, 2003)。我們的端到端模型優(yōu)于之前的先進系統(tǒng),POS標簽的準確率為97.55%,NER標簽的準確率為91.21%。本工作的貢獻在于(i)提出了一種用于語言序列標記的新型神經(jīng)網(wǎng)絡結(jié)構(gòu)。(ii)對兩個經(jīng)典NLP任務的基準數(shù)據(jù)集對該模型進行實證評價。(iii)采用真正的端到端系統(tǒng),達到最先進的性能。
- 它是一個真正的端到端的模型,不需要特定于任務的資源、功能工程或數(shù)據(jù)預處理,只需要在未標記的語料庫上預先訓練好的詞嵌入即可。因此,我們的模型可以很容易地應用于不同語言和領(lǐng)域的序列標記任務。
- 我們首先使用卷積神經(jīng)網(wǎng)絡(convolutional neural networks, CNNs) (LeCun et al., 1989)將一個單詞的字符級信息編碼到它的字符級表示中。
- 然后,我們將字符級和字級表示相結(jié)合,并將它們輸入到雙向LSTM (BiLSTM)中,以對每個單詞的上下文信息進行建模。
- 在BiLSTM之上,我們使用一個連續(xù)的CRF來聯(lián)合解碼整個句子的標簽。
2.Architecture
CNN+BiLSTM+CRF
2.1 CNN for Character-level Representation
(Santos和Zadrozny, 2014;Chiu和Nichols, 2015)的研究表明,CNN是一種從單詞字符中提取形態(tài)學信息(如單詞的前綴或后綴)并將其編碼成神經(jīng)表征的有效方法。圖1顯示了我們用來提取給定單詞的字符級表示的CNN。CNN與Chiu和Nichols(2015)的CNN類似,只是我們只使用字符嵌入作為CNN的輸入,沒有字符類型特征。在向CNN輸入字符嵌入之前應用一個dropout層(Srivastava et al., 2014)。
- CNN
- 輸入:字符嵌入
- dropout層(CNN之前)
2.2 BiLSTM
2.2.1 LSTM單元
2.2.2BiLSTM
對于許多序列標記任務,同時訪問過去(左)和未來(右)上下文是有益的。然而,LSTM的隱藏狀態(tài)ht只從過去獲取信息,對未來一無所知。一個優(yōu)雅的解決方案是雙向LSTM (BLSTM),它的有效性已經(jīng)被以前的工作所證明(Dyer et al., 2015)。基本思想是將每個序列向前和向后呈現(xiàn)為兩個獨立的隱藏狀態(tài),分別捕獲過去和未來的信息。然后將這兩個隱藏狀態(tài)連接起來,形成最終的輸出。
- 雙向鏈接起來就行。
2.3CRF
對于序列標記(或一般的結(jié)構(gòu)化預測)任務,考慮鄰域內(nèi)標簽之間的相關(guān)性,共同解碼給定輸入語句的最佳標簽鏈是有益的。例如,在詞性標注中,形容詞后面緊跟名詞的可能性比動詞大,而在帶有標準BIO2注釋的NER中(Tjong Kim Sang和Veenstra, 1999), I-ORG不能跟I-PER。因此,我們聯(lián)合使用條件隨機域(CRF)對標簽序列進行建模(Lafferty et al., 2001),而不是單獨對每個標簽進行解碼。
- 可以進行約束。
- 用貪婪的維特比解碼
2.4BiLSTM-CNNs-CRF
3.訓練
- word-embedding:tanford’s publicly available GloVe 100-dimensional embeddings
- glove
總結(jié)
以上是生活随笔為你收集整理的论文学习20-End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF(序列标注,2016ACL的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Channel使用技巧
- 下一篇: nlp1-介绍