當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文学习20-End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF（序列标注，2016ACL

發(fā)布時間：2024/7/5 编程问答 56 豆豆

生活随笔收集整理的這篇文章主要介紹了论文学习20-End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF（序列标注，2016ACL 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

abstract
1.introduction
2.Architecture
- 2.1 CNN for Character-level Representation
- 2.2 BiLSTM
- - 2.2.1 LSTM單元
  - 2.2.2BiLSTM
- 2.3CRF
- 2.4BiLSTM-CNNs-CRF
3.訓練

Ma, X. and E. Hovy “End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF.”

abstract

最先進的序列標記系統(tǒng)傳統(tǒng)上需要大量的手工特征和數(shù)據(jù)預處理的特定任務的知識。在這篇論文中，我們介紹了一種新的中立網(wǎng)絡架構(gòu)，它利用雙向LSTM、CNN和CRF的組合，自動地從字級和字級表示中獲益。我們的系統(tǒng)是真正的端到端的，不需要特征工程或數(shù)據(jù)預處理，因此適用于廣泛的序列標記任務。我們用兩個數(shù)據(jù)集來評估我們的系統(tǒng)，這兩個數(shù)據(jù)集分別用于兩個序列標記任務:Penn Treebank WSJ詞性標記語料庫(POS)和CoNLL 2003命名實體識別語料庫(NER)。我們獲得了最先進的性能，這兩個數(shù)據(jù)集的準確性為97.55%的POS標簽和91.21%的F1為NER。

利用雙向LSTM、CNN和CRF的組合，自動地從字級和字級表示中獲益
端到端，無需特征工程或數(shù)據(jù)預處理

1.introduction

摘要語言序列標記是語言深層理解的第一個階段，如詞性標記和命名實體識別，其重要性已被自然語言處理界所認識。自然語言處理(NLP)系統(tǒng)，如句法分析(Nivre and Scholz, 2004;McDonald等人，2005;辜朝明和柯林斯出版社，2010年;馬和趙，2012a;馬和趙，2012b;陳和曼寧，2014;(Ma and Hovy, 2015)和實體共引用解析(Ng, 2010;Ma et al.， 2016)，正變得越來越復雜，部分原因是利用POS標記或NER系統(tǒng)的輸出信息。
大多數(shù)傳統(tǒng)高性能序列標簽模型是線性統(tǒng)計模型,包括隱馬爾科夫模型(HMM)和條件隨機域(CRF) (Ratinov和羅斯,2009;Passos et al ., 2014;羅et al ., 2015),嚴重依賴于手工特性和taskspecific資源。例如,英語POS涂畫者受益于精心設計的單詞拼寫功能;正字法的特性和外部資源等地名表廣泛應用于ner。然而,這樣的特定于任務的知識是昂貴的開發(fā)(馬和夏,2014),使序列標簽模型難以適應新的任務或新領(lǐng)域。

傳統(tǒng)：HMM,CRF,手工特征代價昂貴

近年來，以分布式詞表示為輸入的非線性神經(jīng)網(wǎng)絡(又稱詞嵌入)被廣泛地應用于NLP問題，并取得了很大的成功。Collobert等人(2011)提出了一種簡單而有效的前饋中性網(wǎng)絡，通過在固定大小的窗口內(nèi)使用上下文獨立地對每個單詞的標簽進行分類。最近，循環(huán)神經(jīng)網(wǎng)絡(RNN) (Goller and Kuchler, 1996)及其變體，如長短時記憶(LSTM) (Hochreiter and Schmidhuber, 1997;Gers等人(2000)和門控遞歸單元(GRU) (Cho等人，2014)在序列數(shù)據(jù)建模方面取得了巨大成功。針對語音識別(Graves et al.， 2013)、詞性標注(Huang et al.， 2015)和NER (Chiu and Nichols, 2015)等序列標記任務，提出了幾種基于rnn的神經(jīng)網(wǎng)絡模型;(Hu et al.， 2016)，實現(xiàn)與傳統(tǒng)模式的競爭績效。然而，即使是使用分布式表示作為輸入的系統(tǒng)，也會使用它們來增強而不是取代手工制作的功能(例如單詞拼寫和大小寫模式)。當模型僅僅依賴于神經(jīng)嵌入時，它們的性能會迅速下降。

目前都是用nn來增強手工特征，而非取代。
僅依靠nn，性能會迅速下降。

本文提出了一種用于序列標記的神經(jīng)網(wǎng)絡結(jié)構(gòu)**它是一個真正的端到端的模型，不需要特定于任務的資源、功能工程或數(shù)據(jù)預處理，只需要在未標記的語料庫上預先訓練好的詞嵌入即可。因此，我們的模型可以很容易地應用于不同語言和領(lǐng)域的序列標記任務。我們首先使用卷積神經(jīng)網(wǎng)絡(convolutional neural networks, CNNs) (LeCun et al.， 1989)將一個單詞的字符級信息編碼到它的字符級表示中。然后，我們將字符級和字級表示相結(jié)合，并將它們輸入到雙向LSTM (BLSTM)中，以對每個單詞的上下文信息進行建模。在BLSTM之上，我們使用一個連續(xù)的CRF來聯(lián)合解碼整個句子的標簽。**我們在Penn Treebank的兩個語言序列標記任務上對我們的模型進行了評估(Marcus et al.， 1993)，和NER對CoNLL 2003共享任務的英語數(shù)據(jù)進行了評估(Tjong Kim Sang和De Meulder, 2003)。我們的端到端模型優(yōu)于之前的先進系統(tǒng)，POS標簽的準確率為97.55%，NER標簽的準確率為91.21%。本工作的貢獻在于(i)提出了一種用于語言序列標記的新型神經(jīng)網(wǎng)絡結(jié)構(gòu)。(ii)對兩個經(jīng)典NLP任務的基準數(shù)據(jù)集對該模型進行實證評價。(iii)采用真正的端到端系統(tǒng)，達到最先進的性能。

它是一個真正的端到端的模型，不需要特定于任務的資源、功能工程或數(shù)據(jù)預處理，只需要在未標記的語料庫上預先訓練好的詞嵌入即可。因此，我們的模型可以很容易地應用于不同語言和領(lǐng)域的序列標記任務。
我們首先使用卷積神經(jīng)網(wǎng)絡(convolutional neural networks, CNNs) (LeCun et al.， 1989)將一個單詞的字符級信息編碼到它的字符級表示中。
然后，我們將字符級和字級表示相結(jié)合，并將它們輸入到雙向LSTM (BiLSTM)中，以對每個單詞的上下文信息進行建模。
在BiLSTM之上，我們使用一個連續(xù)的CRF來聯(lián)合解碼整個句子的標簽。

2.Architecture

CNN+BiLSTM+CRF

2.1 CNN for Character-level Representation

(Santos和Zadrozny, 2014;Chiu和Nichols, 2015)的研究表明，CNN是一種從單詞字符中提取形態(tài)學信息(如單詞的前綴或后綴)并將其編碼成神經(jīng)表征的有效方法。圖1顯示了我們用來提取給定單詞的字符級表示的CNN。CNN與Chiu和Nichols(2015)的CNN類似，只是我們只使用字符嵌入作為CNN的輸入，沒有字符類型特征。在向CNN輸入字符嵌入之前應用一個dropout層(Srivastava et al.， 2014)。

CNN
- 輸入：字符嵌入
- dropout層(CNN之前）

2.2 BiLSTM

2.2.1 LSTM單元

2.2.2BiLSTM

對于許多序列標記任務，同時訪問過去(左)和未來(右)上下文是有益的。然而，LSTM的隱藏狀態(tài)ht只從過去獲取信息，對未來一無所知。一個優(yōu)雅的解決方案是雙向LSTM (BLSTM)，它的有效性已經(jīng)被以前的工作所證明(Dyer et al.， 2015)。基本思想是將每個序列向前和向后呈現(xiàn)為兩個獨立的隱藏狀態(tài)，分別捕獲過去和未來的信息。然后將這兩個隱藏狀態(tài)連接起來，形成最終的輸出。

雙向鏈接起來就行。

2.3CRF

對于序列標記(或一般的結(jié)構(gòu)化預測)任務，考慮鄰域內(nèi)標簽之間的相關(guān)性，共同解碼給定輸入語句的最佳標簽鏈是有益的。例如，在詞性標注中，形容詞后面緊跟名詞的可能性比動詞大，而在帶有標準BIO2注釋的NER中(Tjong Kim Sang和Veenstra, 1999)， I-ORG不能跟I-PER。因此，我們聯(lián)合使用條件隨機域(CRF)對標簽序列進行建模(Lafferty et al.， 2001)，而不是單獨對每個標簽進行解碼。

可以進行約束。
用貪婪的維特比解碼

2.4BiLSTM-CNNs-CRF

3.訓練

word-embedding:tanford’s publicly available GloVe 100-dimensional embeddings
- glove

總結(jié)

以上是生活随笔為你收集整理的论文学习20-End-to-end Sequence Labeling via Bi-directional LSTM-CNNs-CRF（序列标注，2016ACL的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。