几种NER模型
1. BiLSTM-CRF
1.1 模型
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?
?
對于一個中文句子,這個句子中的每個字符都有一個屬于集合{O,B-PER,I-PER,B-LOC,I-LOC,B-ORG,I-ORG}的標記。
第一層,look-up layer,旨在將每個字符表示從一個one-hot向量轉換為character embedding字符嵌入。在這段代碼中,隨機初始化嵌入矩陣,我知道它看起來太簡單了。我們以后可以增加一些語言知識。例如,進行標記化tokenization?并使用pre-trained word-level embedding 字級嵌入,然后可以使用此標記的字嵌入初始化一個標記中的每個字符。此外,我們還可以通過結合低層特征來實現字符的嵌入(詳見論文[2]第4.1節和論文[3]第3.3節)。
第二層,BiLSTM層,可以有效地利用過去和將來的輸入信息,自動提取特征。
第三層,CRF層,在一個句子中為每個字符標記標簽。如果我們使用Softmax層進行標記,我們可能會得到非隨機標記序列,因為Softmax層獨立地標記每個位置。我們知道“I-LOC”不能跟在“B-PER”后面,但Softmax不知道。與Softmax相比,CRF層可以利用句子級的標簽信息,對兩個不同標簽的轉換行為進行建模。
1.2 語料
MSRA corpus
?將自己語料轉換為以上格式,并生成一個詞匯表文件。
2. BERT-BiLSTM-CRF
條件隨機場-CRF
??條件隨機場分為三個部分,一個是“條件”,一個是“隨機場”,還有一個是“馬爾科夫”。
??“隨機場”:就是若干個位置的整體,當每個位置按某一種分布去取值時,當每個位置的值都確定下來,整體就是一個隨機場。標注序列 ”OOBSOBMSOOO” 就是一個隨機場。
??“條件”:就是在已知X的條件下,Y是在已知X的條件下的輸出,可類比于條件概率。
??“馬爾科夫”:就是隨機場中的任一一個位置的結果僅與此位置相鄰的結果和的位置有關,而與其他不相鄰位置的結果無關。
??條件隨機場:綜合上述的定義,我們給出條件隨機場的定義:設X與Y是隨機變量,P(Y|X)是給定X時Y的條件概率分布,若隨機變量Y構成的是一個馬爾科夫隨機場,則稱條件概率分布P(Y|X)是條件隨機場。
模型特點:CRF是一個判別式模型,就是根據輸入序列X來給出輸出序列Y的概率分布。
3.?IDCNN/BiLSTM-CRF
?
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
- 上一篇: Github代码上传和下载
- 下一篇: 膨胀卷积(Dilated convolu