用BILSTM+CRF模型进行命名实体识别
原文地址:https://arxiv.org/pdf/1603.01360.pdf? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?摘要
? ? ? ? 命名實體識別的最先進系統嚴重地依賴手工生產特征和特定領域的知識,以便有效地從現有的小型、有監督的訓練語料庫中學習。?本文介紹了基于雙向LSTMS和條件隨機場的兩種新的神經結構,另一種是使用基于轉換的方法構造和標記片段,這種方法是受Shift-Reducer解析器啟發的。我們的模型依賴于關于單詞的兩個信息來源:基于字符的詞表示從監督語料庫中學習,而非監督詞表示從無標注語料庫中學習。?我們的模型獲得最先進的表現,以NER四種語言,而不求助于任何特定語言的知識或資源,如地名錄。
1、引言
? ? ??命名實體識別 是一項極具挑戰的學習問題。一方面,在大多數語言和領域,只有很少的監督訓練數據可用。另一方面,對可以命名的字的種類有很少的限制,所以從這個小的數據樣本中概括起來是很困難的。因此,精心構建的字形特征和特定語言的知識資源,如地名錄,被廣泛用于解決這一任務。不幸的是,在新的語言和新領域中,語言的資源和功能是昂貴的,使NER適應不同情況的挑戰。為不加標注的語料庫進行無監督學習提供了一種替代策略,可以從少量的監督中獲得更好的泛化能力。然而,即使是大量依賴無監督特性的系統也使用這些特性來擴充而不是取代手工設計的特性和專門的知識庫。(例如關于特定語言中的資本化模式和字符類的知識)
? ? ??在本文中,我們提出了新的神經結構,它不使用特定于語言的資源或特征,只使用少量有監督的訓練數據和未標記的語料庫。我們的模型是為了捕捉兩種直覺而設計的。首先,由于名稱通常由多個標記組成,因此對每個標記聯合使用標簽決定?是很重要的。
? ? ? ?在這里,我們比較了兩個模型:(I)雙向LSTM,它上面有一個順序的條件隨機層(LSTM-CRF;§2);(Ii)一種新的模型,它使用一種基于轉換的解析算法構造和標記輸入句子塊,其狀態由堆棧Lstms表示(s-LSTM;§3)。?第二,“是否是一個名字”的令牌級證據包括正交證據(詞被標記為名稱的是什么?))和分布證據(標記詞在語料庫中的位置?)。?為了捕獲正交靈敏度,我們使用基于字符的詞表示模型(ling等人,2015b)來捕獲分布靈敏度,我們將這些表示與分布表示相結合(mikolov等人,2013b)。我們的詞表示法將這兩者結合在一起,而dropout訓練被用來鼓勵模型學會信任這兩種證據來源(第4節)。
? ? ? ?用英語、荷蘭語、德語和西班牙語進行的實驗表明,我們能夠以荷蘭、德國和西班牙語的lstm-crf模式獲得最新的ner性能,并且非常接近英語的最新水平,而無需任何手工設計的功能或地名錄(第5節)。基于轉換的算法同樣優于以前在幾種語言中發表的最佳結果,盡管它的性能不如LSTM-CRF模型。?
?2、LSTM-CRF模型
2.1、LSTM
? ? ? ?遞歸神經網絡(Rnns)是一類對序列數據進行操作的神經網絡。它們以向量序列(x1,x2...xn)作為輸入,并返回另一個序列(h1,h2,...hn)表示輸入中每一步的序列的一些信息。盡管Rnns理論上可以學習長期依賴關系,但在實踐中它們卻沒有這樣做,而且傾向于偏向于它們在序列中的最新輸入(Bengio等人,1994年)。長短期記憶網絡(Lstms)已經被設計成通過包含內存單元來解決這個問題,并且已經被證明能夠捕獲長期依賴關系。他們使用幾個門來控制輸入給記憶細胞的比例,以及從先前狀態到遺忘的比例(Hochreiter和Schmidhuber,1997)。我們用一下公式進行描述:
其中σ是按元素方向的Sigmoid函數,以及是元素的乘積。對于給定的句子(x1,x2,。。。,xn)包含n個單詞,每個單詞表示為d維向量,LSTM在每個單詞t處計算句子左上下文的表示ht。當然,生成正確上下文ht的表示也應該添加有用的信息。?這可以通過使用第二個LSTM來實現,第二個LSTM以相反的方式讀取相同的序列。我們將前者稱為前向LSTM,后者稱為后向LSTM。這是兩個不同的網絡,具有不同的參數。?這種前后向LSTM對稱為雙向LSTM。
? ? ? ?使用該模型表示一個單詞的方法是將它的左右上下文表示連接起來,??這些表示有效地包括了上下文中單詞的表示,這對于許多標記應用程序都很有用。
2.2、CRF標記模型
? ? ? ??一個非常簡單但卻非常有效的標簽模型是使用ht作為特性,為每個輸出yt做出獨立的標記決策。?盡管該模型在pos標簽等簡單問題上取得了成功,但當輸出標簽之間存在很強的依賴關系時,它的獨立分類決策將受到限制。NER就是一個這樣的任務,因為特征標簽間序列的“語法”強加了幾個難以用獨立假設建模的硬約束。因此,我們沒有獨立地建模標記決策,而是使用條件隨機場對它們進行了聯合建模(Laffdy等人,2001年)。輸入句子 :
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
我們認為p是雙向LSTM網絡輸出的分數矩陣。p的大小為n×k,其中k是不同標記的數目,pij對應于句子中第i個單詞的第j個標記的分數。對于預測序列:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
我們把它的分數定義為 :
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
其中A是轉換分數的矩陣,使得Aij表示從標記i到標簽j的轉換的分數。y0和yn是句子的開始和結束標記,我們將其添加到一組可能的標記中。因此,a是k+2大小的方陣。在所有可能的標記序列上,Softmax會產生序列y的概率:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
在訓練期間,我們最大限度地提高正確標記序列的對數似然:?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
其中,Yx表示一個句子X的所有可能的標記序列(甚至那些不驗證IOB格式的標記序列)。從上面的表述來看,很明顯,我們鼓勵我們的網絡產生一個有效的輸出標簽序列。?在解碼過程中,我們預測輸出序列,該輸出序列獲得以下所給出的最大分數:?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??(2)
因為我們只是在模擬輸出之間的兩個詞的交互作用,所以都是在等式中求和。(1)是最大后驗序列y*。(2)采用動態規劃方法進行計算。?
2.3、參數化與訓練
? ? ? ??與每個標記決策相關的分數(即pi,y‘s)被定義為由雙向LSTM計算的Wordin上下文嵌入之間的點積,與ling等人的pos標記模型完全相同。(2015B)與Bigram兼容性分數(即Y0,Y0)相結合。這個體系結構如圖1所示。圓代表觀察變量,菱形是其父母的確定性函數,雙圓是隨機變量。?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
圖1:網絡的主要架構。給出了雙向LSTM的字嵌入。Li代表I和它的左上下文,ri代表I和它的右上下文。將這兩個向量連接在一起,就可以在其上下文Ci中表示單詞I。?
? ? ? ?因此,該模型的參數是Bigram兼容性評分矩陣A,以及產生矩陣P的參數,即雙向LSTM的參數、線性特征權重和單詞嵌入。與第2.2部分一樣,讓xi表示一個句子中每個單詞的嵌入順序,而yi是它們的關聯標記。我們將在第4節中討論如何創建詞嵌入xi。單詞嵌入序列作為雙向LSTM的輸入,該LSTM返回每個單詞的左和右上下文的表示,如2.1中所解釋的那樣。?
? ? ? ?這些表示被連在一起(Ci)并線性投影到一個大小等于不同標簽數量的層上。我們沒有使用這個層的Softmax輸出,而是像前面描述的那樣使用CRF來考慮相鄰的標記,為每個單詞yi做出最終的預測。此外,我們還觀察到在ci和CRF層之間添加一個隱藏層可以稍微改進我們的結果。這個模型所報告的所有結果都包含了這個額外的層。對參數進行訓練,使方程(1)達到最大,在標注語料庫中觀察到的NER標記序列,給出觀察到的單詞。
2.4、標記方案
? ? ? ?命名實體識別的任務是為句子中的每個單詞指定一個命名實體標簽。?一個命名實體可以在一個句子中跨越多個標記。句子通常以IOB格式(內部、外部、開始)表示,如果令牌是命名實體的開始,則標記為b標簽;如果標記在命名實體內,則為i標簽,而不是命名實體內的第一個標記,否則為O。然而,我們決定使用iobes標記方案,這是IOB的一個常見的用于命名實體識別的變體,它編碼關于單個實體的信息,并顯式地標記命名實體(E)的結束。使用此方案,當I-標簽帶有高度自信地標記一個單詞時,將縮小對后續單詞I標簽或E標簽的選擇,然而,IOB計劃只能確定后續單詞不能是另一個標簽的內部。Ratinov和roth(2009)、Dai等人(2015)顯示,使用更有表現力的標記方案(如iobes)可以略微提高模型性能。然而,我們并沒有觀察到與IOB標記方案相比有顯著的改善。
3?基于過渡的分塊模型?
? ? ? ?作為上一節討論的LSTM-CRF的替代方案,我們探索了一種新的體系結構,它使用類似于基于轉換的依賴分析的算法來標記輸入序列。該模型直接構造多標記名稱的表示(例如,名稱標記Watney由單個表示組成)。該模型依賴于堆棧數據結構來增量地構造輸入塊。為了獲得用于預測后續行為的堆棧表示,我們使用Dyer等人提出的堆棧-LSTM。(2015),其中LSTM增加了一個“堆棧指針”。當順序lstms模型序列從左到右時,堆棧lstms允許嵌入添加到(使用推送操作)和從(使用POP操作)中刪除的對象堆棧。這允許堆棧-LSTM像維護其內容的“概要嵌入”的堆棧一樣工作。?為了簡單起見,我們將這個模型稱為堆棧LSTM或s-LSTM模型。
? ? ??最后,我們請感興趣的讀者參考原始論文(dyer等人,2015),以獲得關于stacklstm模型的詳細信息,因為在本文中,我們只是通過下面一節介紹的一種新的基于轉換的算法來使用相同的體系結構。
3.1、分塊算法
? ? ?我們設計了一個轉換清單,如圖2所示,它受到基于轉換的解析器的啟發,特別是Nivre(2004)的弧形標準解析器。在該算法中,我們使用兩個堆棧(指定輸出和堆棧分別表示已完成的塊和劃痕空間)和一個包含尚未處理的單詞的緩沖區。?過渡清單包含以下過渡:Shift轉換將一個單詞從緩沖區移動到堆棧,Out轉換將一個單詞從緩沖區直接移動到輸出堆棧中,而REDUCE(Y)轉換從堆棧頂部彈出所有項,創建一個“塊”,用標簽y標記這個項,并將該塊的表示推到輸出堆棧上。當堆棧和緩沖區都為空時,算法將完成。該算法如圖2所示,它顯示了處理所訪問的Mars的語句標記Watney所需的操作序列。?
? ??給定堆棧、緩沖區和輸出的當前內容以及所執行操作的歷史,通過在每個時間步驟定義對動作的概率分布來參數化模型。跟蹤Dyer等人。(2015),我們使用堆棧lstms計算其中每一個的固定維嵌入,并對這些嵌入進行級聯以獲得完整的算法狀態。此表示用于定義可在每個時間步驟執行的可能操作的分布。該模型通過訓練使給定輸入句子的參考動作序列(從標記訓練語料庫中提取)的條件概率最大化。為了在測試時間標記一個新的輸入序列,貪婪地選擇最大概率動作,直到算法達到終止狀態。雖然這并不一定能找到一個全局最優方案,但在實踐中是有效的。由于每個標記要么直接移動到輸出(1操作),要么首先移動到堆棧,然后輸出(2個操作),所以長度n的序列的動作總數最大為2n。
? ? ??
圖2:堆棧-LSTM模型的轉換,指示應用的操作和結果狀態。粗體符號表示單詞和關系的嵌入,腳本符號表示對應的單詞和關系。
? ? ? ?0
圖3:MarkWatney使用堆棧-LSTM模型訪問mars的轉換序列。?值得注意的是,該算法模型的性質使得它不知道所使用的標記方案,因為它可以直接預測標記塊。
3.2、表示標記塊
? ? 在執行REDUCE(Y)操作時,該算法將標記序列(連同它們的向量嵌入)從堆棧轉移到輸出緩沖區,作為一個完整的塊。為了計算這個序列的嵌入,我們在其組成標記的嵌入上運行一個雙向LSTM,同時運行一個表示所標識的塊類型的標記(i.e,y)。此函數設為g(u,v,ry),其中ry是標記類型的學習嵌入。因此,輸出緩沖區包含單個向量表示,用于生成的每個標記塊,而不管其長度如何。
4、輸入字嵌入
? ? ?兩個模型的輸入層都是單個單詞的矢量表示。從有限的NER訓練數據中學習單詞類型的獨立表示是一個困難的問題:有太多的參數無法可靠地估計。由于許多語言都有拼寫或形態學證據證明某物是一個名稱(或不是一個名稱),我們需要對單詞拼寫敏感的表示。因此,我們使用一個模型,該模型根據由(4.1)組成的字符的表示來構造單詞的表示。我們的第二個直覺是,名稱,可能是個別的,相當多的變化,出現在大語料庫的規則上下文中。因此,我們使用從大語料庫中學習到的對語序敏感的嵌入(4.2)。最后,為了防止模型對一種或另一種表現形式的依賴性過強,我們使用了dropout訓練,發現這對于良好的泛化性能至關重要(4.3)。?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
圖4:單詞“mars”的字符嵌入給雙向lstm。我們將它們的最后輸出連接到一個查找表的嵌入中,以獲得這個詞的表示。
4.1、基于字符的詞語模型
? ??我們的工作與以往大多數方法的一個重要區別是,我們學習字符級的特征,同時訓練,而不是手工工程前綴和后綴信息的單詞。學習字符級嵌入具有學習表示特定于當前任務和領域的優點。它們對于形態豐富的語言和處理諸如詞性標注和語言建模(ling等人,2015b)或依賴分析(Ballesteros等人,2015年)等任務的詞匯外問題很有用。?圖4描述了從其字符中為一個單詞生成一個單詞嵌入的體系結構。隨機初始化的字符查找表包含每個字符的嵌入。對應于一個詞中每個字符的字符嵌入是以正反向順序給出的,給出了Foward和反向LSTM。?由字符派生的詞的嵌入是雙向LSTM的前向和后向表示的級聯。?然后,這個字符級表示與單詞查找表中的字級表示連接起來.?在測試過程中,在查找表中沒有嵌入的單詞被映射到事件嵌入。為了訓練事件嵌入,我們用概率為0.5的事件嵌入替換了單個節點。在我們所有的實驗中,正向和后向字符lstm的隱維分別為25,這導致了我們基于字符的單詞表示為50維。?因此,我們期望前向LSTM的最終表示能夠準確地表示單詞的后綴,而反向LSTM的最終狀態將更好地表示它的前綴。另一種方法-尤其是卷積網絡-已被提議用來從文字中學習單詞的表征(Zhang等人,2015年;Kim等人,2015年)。?然而,convnets的設計是為了發現它們的輸入的位置不變特征。我們認為重要的信息是位置依賴的(例如前綴和后綴編碼的信息與詞干不同),這使得lstms成為一個更優先的函數類,用于建模單詞與它們的字符之間的關系。
4.2、預訓練嵌入
? ? ?科洛伯特等人。(2011),我們使用預先訓練過的字嵌入來初始化查找表。我們觀察到使用預先訓練過的字嵌入比隨機初始化的有顯著的改進。嵌入是使用Skip-n-gram(ling等人,2015A)預先訓練的,后者是Word2vec(mikolov等人,2013年a)的一個變體,解釋了詞序。這些嵌入在訓練期間進行了精細的調整。
? ? ?西班牙語、荷蘭語、德語和英語的單詞嵌入分別使用西班牙gigaword第3版、Leipzig語料庫、2010年機器翻譯講習班的德語單語培訓數據和英語gigaword第4版(刪除la Times和NY Time部分)進行訓練。我們使用的嵌入維數為100,其他語言為64,最小詞頻截止為4,窗口大小為8。?
4.3、Dropout training
? ? ?初步實驗表明,字符級嵌入與預先訓練的字表示結合使用,并沒有提高我們的整體性能。為了鼓勵模型依賴于這兩種表示,我們使用了輟學培訓(Hinton等人,2012年),在圖1中的雙向LSTM輸入之前將一個輟學掩碼應用到最終的嵌入層。我們觀察到在使用dropout后,我們的模型的性能有了顯著的改善(見表5)。?
5、Experiments
這一部分介紹了我們用來訓練我們的模型的方法,我們在各種任務上得到的結果,以及我們的網絡配置對模型性能的影響。?
5.1、Training
? ? ? 對于這兩種模型,我們使用反向傳播算法訓練我們的網絡,在每個訓練示例中每次更新我們的參數,使用隨機梯度下降(SGD),學習速率為0.01,梯度剪裁為5.0。為提高SGD的績效,提出了幾種方法,例如,addelta(Zeiler,2012年)或Adam(Kingma和ba,2014年)。雖然我們使用這些方法觀察到更快的收斂性,但沒有一種方法的性能比采用梯度裁剪的SGD更好。
? ? ?我們的LSTM-CRF模型使用一個單層的正向和后向lstm,其尺寸設置為100。調優此維度對模型性能沒有顯著影響。我們把輟學率定為0.5。使用較高的比率會對我們的結果產生負面影響,而較小的比率會導致更長的訓練時間。
? ??堆棧-LSTM模型為每個堆棧使用兩個維度各為100的層.組合函數中使用的動作的嵌入分別有16維,輸出嵌入為20維。我們對不同的輟學率進行了實驗,并報告了每種語言采用最佳輟學率的分數。3這是一個貪婪的模型,在整個句子被處理之前應用局部最優動作,通過波束搜索(Zhang and Clark,2011)或探索訓練(Ballesteros等人,2016)可以得到進一步的改進。
5.2、?Data Sets
? ?我們在不同的數據集上測試我們的模型以進行命名實體識別。為了證明我們的模型具有推廣到不同語言的能力,我們介紹了conll-2002和conll-2003數據集(Tjong Kim SUN,2002;Tjong Kim SUN和de Meulder,2003)的結果,其中包含英語、西班牙語、德語和荷蘭語的獨立命名實體標簽。所有數據集都包含四種不同類型的命名實體:位置、人員、組織和雜項實體,這些實體不屬于上述三個類別中的任何一個。雖然pos標記可以用于所有數據集,但我們沒有將它們包括在我們的模型中。除了用英文NER數據集中的零替換每一個數字之外,我們沒有執行任何數據集預處理。
5.3 Results
? ? ?表1給出了我們與其他英文命名實體識別模型的比較。?為了使我們的模型與其他模型之間的比較公平,我們報告了其他模型的分數,包括是否使用了外部標記數據,如地名錄和知識庫。我們的模型不使用地名錄或任何外部標記的資源。關于這一任務的最佳成績是羅等人所報道的。(2015年)。他們通過聯合建模NOR和實體鏈接任務獲得了91.2的F1(Hoffart等人,2011年)。他們的模型使用了很多手工設計的功能,包括拼寫功能、Wordnet集群、棕色集群、pos標記、塊標記,以及詞干和外部知識庫(如FreeBase和Wikipedia)。我們的LSTM-CRF模型優于所有其他系統,包括使用外部標記數據(如地名錄)的系統。除了Chiu和Nichols(2015)介紹的模型外,我們的stacklstm模型還優于以前所有不包含外部特性的模型。?
? ??表2、表3和表4分別列出了德國、荷蘭和西班牙與其他模型的比較結果。在這三種語言上,LSTM-CRF模型的性能明顯優于以前的所有方法,包括使用外部標記數據的方法。唯一的例外是荷蘭,在荷蘭,Gillick等人的模型。(2015年)可以通過利用來自其他可再生能源技術數據集的信息來更好地發揮作用。與不使用外部數據的系統相比,堆棧LSTM還始終呈現最新(或接近)結果。
? ??從表中可以看出,堆棧-lstm模型更依賴于基于字符的表示來實現競爭性能;我們假設lstm-crf模型需要較少的正交信息,因為它從雙向lstms中獲取更多的上下文信息;然而,堆棧-lstm模型一個接一個地消耗單詞,并且它只是在分詞時依賴于單詞表示。
5.4網絡架構
? ? ?我們的模型有幾個組件,我們可以調整以了解它們對整體性能的影響。?我們探討了CRF、字符級表示、單詞嵌入預訓練和退出對我們的lstmcrf模型的影響。?我們觀察到,預先訓練我們的詞嵌入給了我們最大的改善,在總體表現為7.31在F1。CRF層增加了1.79,而使用輟學導致了1.17的差異,最終學習字符級的詞嵌入增加了0.74左右。對于堆棧LSTM,我們進行了類似的實驗。表5給出了不同結構的結果。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??
表1:英語NER測試結果(conll-2003測試集)。*指示使用外部標記數據進行培訓的模型?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
表2:德國NER測試結果(conll-2003測試集)。*指示使用外部標記數據進行培訓的模型
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
表5:使用不同配置的英語NER模型的結果。“預訓練”指的是包含預先訓練過的單詞嵌入的模型,“char”是指包括基于字符的詞建模的模型,“下拉”指的是包含輟學率的模型。
6相關工作?
在conll-2002共享任務中,carrera等人。(2002)在荷蘭和西班牙都取得了最好的結果之一,通過合并幾個小的固定深度決策樹。明年,在conll-2003共享任務中,弗洛里安等人。(2003)通過綜合四個不同分類器的輸出,在德語上獲得了最好的分數。齊等人(2009)后來,通過對大規模的無標記語料庫進行無監督學習,神經網絡對此進行了改進。以前已經提出了幾種新的神經結構。例如,Colobert等人。(2011)使用CNN對一系列字嵌入,在頂部有一個CRF層。這可以被認為是我們的第一個模型,沒有字符級嵌入和雙向LSTM被一個CNN取代。最近,Huang等人。(2015年)提出了一個類似于我們的LSTM-CRF的模型,但使用手工拼寫功能。周和徐(2015)也使用了類似的模型,并將其適用于語義角色標注任務。Lin和Wu(2009)使用線性鏈CRF和L2正則化,他們加入了從網絡數據和拼寫特征中提取的短語聚類特征。Passos等人(2014年)還使用了具有拼寫特征和地名錄的線性鏈通用報告格式。Cucerzan和Yarowsky(1999;2002)提出了半監督的自舉算法,通過共同訓練字符級(字-內)和標記級(上下文)特征來識別命名實體。Eisenstein等人(2011)在幾乎沒有監督的情況下,使用貝葉斯非參數化技術構建命名實體的數據庫。Rateinov和Roth(2009)定量比較了幾種方法,并利用正則化平均感知器和聚合上下文信息建立了自己的監督模型。最后,目前人們對使用基于字母的表示法的NER模型很感興趣.Gillick等人(2015)將順序標注的任務建模為序列學習問題的序列,并將基于字符的表示納入其編碼器模型。Chiu和Nichols(2015)采用了一種與我們類似的體系結構,但使用CNN學習字符級的特性,其方式類似于Santos和Guimaraes(2015)的工作。
7 Conclusion
本文提出了兩種用于序列標注的神經結構,即使與使用外部資源的模型(如地名錄)進行比較,也提供了標準評估設置中所報告的最好的NER結果。我們的模型的一個關鍵方面是,它們通過簡單的crf體系結構建模輸出標簽依賴關系,或者使用基于轉換的算法顯式地構造和標記輸入塊。詞表示法也是成功的關鍵:我們使用預先訓練過的詞表示和捕捉形態和拼寫信息的“基于字符”的表示。為了防止學習者過分依賴一個表示類,使用了輟學。
總結
以上是生活随笔為你收集整理的用BILSTM+CRF模型进行命名实体识别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 微信小程序icon控件
- 下一篇: Eagle 画板-拼板-输出Gerber