论文浅尝 | 利用Lattice LSTM的最优中文命名实体识别方法
本文轉(zhuǎn)載自公眾號:機(jī)器之心。
選自arXiv
作者:Yue Zhang、Jie Yang
機(jī)器之心編譯
參與:路、王淑婷
近日,來自新加坡科技設(shè)計大學(xué)的研究者在 arXiv 上發(fā)布了一篇論文,介紹了一種新型中文命名實(shí)體識別方法,該方法利用 Lattice LSTM,性能優(yōu)于基于字符和詞的方法。與基于字符的方法相比,該模型顯性地利用詞和詞序信息;與基于詞的方法相比,lattice LSTM 不會出現(xiàn)分詞錯誤。這篇論文已被 ACL 2018 接收。
作為信息抽取的一項基本任務(wù),命名實(shí)體識別(NER)近年來一直受到研究人員的關(guān)注。該任務(wù)一直被作為序列標(biāo)注問題來解決,其中實(shí)體邊界和類別標(biāo)簽被聯(lián)合預(yù)測。英文 NER 目前的最高水準(zhǔn)是使用 LSTM-CRF 模型實(shí)現(xiàn)的(Lample et al., 2016; Ma and Hovy, 2016; Chiu and Nichols, 2016; Liu et al., 2018),其中字符信息被整合到詞表征中。
中文 NER 與分詞相關(guān)。命名實(shí)體邊界也是詞邊界。執(zhí)行中文 NER 的一種直觀方式是先執(zhí)行分詞,然后再應(yīng)用詞序列標(biāo)注。然而,分割 → NER 流程可能會遇到誤差傳播的潛在問題,因為 NE 是分割中 OOV 的重要來源,并且分割錯誤的實(shí)體邊界會導(dǎo)致 NER 錯誤。這個問題在開放領(lǐng)域可能會很嚴(yán)重,因為跨領(lǐng)域分詞仍然是一個未解決的難題(Liu and Zhang, 2012; Jiang et al., 2013; Liu et al., 2014; Qiu and Zhang, 2015; Chen et al., 2017; Huang et al., 2017)。已有研究表明,中文 NER 中,基于字符的方法表現(xiàn)要優(yōu)于基于詞的方法(He and Wang, 2008; Liu et al., 2010; Li et al., 2014)。
圖 1:詞-字符網(wǎng)格。
基于字符的 NER 的一個缺陷在于無法充分利用顯性的詞和詞序信息,而它們是很有用的。為了解決這一問題,本論文研究者利用 lattice LSTM 來表征句子中的 lexicon word,從而將潛在詞信息整合到基于字符的 LSTM-CRF 中。如圖 1 所示,研究者使用一個大型自動獲取的詞典來匹配句子,進(jìn)而構(gòu)建基于詞的 lattice。因此,詞序如「長江大橋」、「長江」和「大橋」可用于語境中的潛在相關(guān)命名實(shí)體消歧,如人名「江大橋」。
由于在網(wǎng)格中存在指數(shù)級數(shù)量的詞-字符路徑,因此研究者利用 lattice LSTM 結(jié)構(gòu)自動控制從句子開頭到結(jié)尾的信息流。如圖 2 所示,門控單元用于將來自不同路徑的信息動態(tài)傳送到每個字符。在 NER 數(shù)據(jù)上訓(xùn)練后,lattice LSTM 能夠?qū)W會從語境中自動找到更有用的詞,以取得更好的 NER 性能。與基于字符和基于詞的 NER 方法相比,本論文提出的模型的優(yōu)勢在于利用利用顯性的詞信息而不是字符序列標(biāo)注,且不會出現(xiàn)分詞誤差。
圖 2:Lattice LSTM 結(jié)構(gòu)。
結(jié)果顯示該模型顯著優(yōu)于基于字符的序列標(biāo)注模型和使用 LSTMCRF 的基于詞的序列標(biāo)注模型,在不同領(lǐng)域的多個中文 NER 數(shù)據(jù)集上均獲得最優(yōu)結(jié)果。
模型
研究者遵循最好的英文 NER 模型(Huang et al., 2015; Ma and Hovy, 2016; Lample et al., 2016),使用 LSTM-CRF 作為主要網(wǎng)絡(luò)結(jié)構(gòu)。形式上,指定輸入句子為 s = c_1, c_2, . . . , c_m,其中 c_j 指第 j 個字符。s 還可以作為詞序列 s = w_1, w_2, . . . , w_n,其中 w_i 指句子中的第 i 個詞,使用中文分詞器獲得。研究者使用 t(i, k) 來指句子第 i 個詞中第 k 個字符的索引 j。以圖 1 中的句子為例。如果分詞是「南京市 長江大橋」,索引從 1 開始,則 t(2, 1) = 4 (長),t(1, 3) = 3 (市)。研究者使用 BIOES 標(biāo)記規(guī)則(Ratinov and Roth, 2009)進(jìn)行基于詞和基于字符的 NER 標(biāo)記。
圖 3:模型。
表 4:在開發(fā)集上的結(jié)果。
表 5:在 OntoNotes 上的主要結(jié)果。
論文:Chinese NER Using Lattice LSTM
論文鏈接:https://arxiv.org/abs/1805.02023
項目鏈接:https://github.com/jiesutd/LatticeLSTM
摘要:我們研究了用于中文命名實(shí)體識別(NER)的 lattice LSTM 模型,該模型對輸入字符序列和所有匹配詞典的潛在詞匯進(jìn)行編碼。與基于字符的方法相比,該模型顯性地利用詞和詞序信息。與基于詞的方法相比,lattice LSTM 不會出現(xiàn)分詞錯誤。門控循環(huán)單元使得我們的模型能夠從句子中選擇最相關(guān)的字符和詞,以生成更好的 NER 結(jié)果。在多個數(shù)據(jù)集上的實(shí)驗證明 lattice LSTM 優(yōu)于基于詞和基于字符的 LSTM 基線模型,達(dá)到了最優(yōu)的結(jié)果。
OpenKG.CN
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進(jìn)中文知識圖譜數(shù)據(jù)的開放與互聯(lián),促進(jìn)知識圖譜和語義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 利用Lattice LSTM的最优中文命名实体识别方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 体验paddle2.0rc版本API-M
- 下一篇: python中模块、函数与各个模块之间的