用隐马尔可夫模型(HMM)做命名实体识别——NER系列(二)
上一篇文章里《用規(guī)則做命名實體識別——NER系列(一)》,介紹了最簡單的做命名實體識別的方法–規(guī)則。這一篇,我們循序漸進,繼續(xù)介紹下一個模型——隱馬爾可夫模型。
隱馬爾可夫模型,看上去,和序列標(biāo)注問題是天然適配的,所以自然而然的,早期很多做命名實體識別和詞性標(biāo)注的算法,都采用了這個模型。
這篇文章我將基于碼農(nóng)場的這篇文章《層疊HMM-Viterbi角色標(biāo)注模型下的機構(gòu)名識別》,來做解讀。但原文中的這個算法實現(xiàn)是融入在HanLP里面的。不過他也有相應(yīng)的訓(xùn)練詞典,所以我在這篇文章里面也給出一個python實現(xiàn),做一個簡單的單層HMM模型,來識別機構(gòu)名。
代碼地址:https://github.com/lipengfei-558/hmm_ner_organization
1.隱馬爾可夫模型(HMM)
隱馬爾可夫模型(Hidden Markov Model,HMM),是一個統(tǒng)計模型。
關(guān)于這個模型,這里有一系列很好的介紹文章:http://www.52nlp.cn/category/hidden-markov-model
隱馬爾可夫模型有三種應(yīng)用場景,我們做命名實體識別只用到其中的一種——求觀察序列的背后最可能的標(biāo)注序列。
即根據(jù)輸入的一系列單詞,去生成其背后的標(biāo)注,從而得到實體。
2.在序列標(biāo)注中應(yīng)用隱馬爾可夫模型
HMM中,有5個基本元素:{N,M,A,B,π},我結(jié)合序列標(biāo)志任務(wù)對這5個基本元素做一個介紹:
- N:狀態(tài)的有限集合。在這里,是指每一個詞語背后的標(biāo)注。
- M:觀察值的有限集合。在這里,是指每一個詞語本身。
- A:狀態(tài)轉(zhuǎn)移概率矩陣。在這里,是指某一個標(biāo)注轉(zhuǎn)移到下一個標(biāo)注的概率。
- B:觀測概率矩陣,也就是發(fā)射概率矩陣。在這里,是指在某個標(biāo)注下,生成某個詞的概率。
- π:初始概率矩陣。在這里,是指每一個標(biāo)注的初始化概率。
而以上的這些元素,都是可以從訓(xùn)練語料集中統(tǒng)計出來的。最后,我們根據(jù)這些統(tǒng)計值,應(yīng)用維特比(viterbi)算法,就可以算出詞語序列背后的標(biāo)注序列了。
命名實體識別本質(zhì)上就是序列標(biāo)注,只需要自己定義好對應(yīng)的標(biāo)簽以及模式串,就可以從標(biāo)注序列中提取出實體塊了。
3.實戰(zhàn):用HMM實現(xiàn)中文地名識別
3.1 參考論文以及網(wǎng)站
- 張華平, 劉群. 基于角色標(biāo)注的中國人名自動識別研究[J]. 計算機學(xué)報, 2004, 27(1):85-91.
- 俞鴻魁, 張華平, 劉群. 基于角色標(biāo)注的中文機構(gòu)名識別[C]// Advances in Computation of Oriental Languages–Proceedings of the, International Conference on Computer Processing of Oriental Languages. 2003.
- 俞鴻魁, 張華平, 劉群,等. 基于層疊隱馬爾可夫模型的中文命名實體識別[J]. 通信學(xué)報, 2006, 27(2):87-94.
-
碼農(nóng)場:層疊HMM-Viterbi角色標(biāo)注模型下的機構(gòu)名識別
3.2 任務(wù)
命名實體識別之中文機構(gòu)名的識別。
3.3 語料
HanLP(https://github.com/hankcs/HanLP/releases)提供的語料:
我用的是data-for-1.3.3.zip,百度網(wǎng)盤下載地址:
https://pan.baidu.com/s/1o8Rri0y
下載后解壓,我們要用的語料路徑如下:
\data-for-1.3.3\data\dictionary\organization
其中,里面有兩個我們要用到的語料文件,nt.txt和nt.tr.txt。這兩個文件的數(shù)據(jù)統(tǒng)計自人民日報語料庫。
① nt.txt:
詞語標(biāo)注統(tǒng)計詞典,比如里面有一行是這樣的:
會議 B 163 C 107 A 10
意思是,會議這個詞作為B標(biāo)簽出現(xiàn)了163次,作為C標(biāo)簽出現(xiàn)了107次,作為A標(biāo)簽出現(xiàn)了10次.
② nt.tr.txt:
標(biāo)簽轉(zhuǎn)移矩陣。如下圖:
即,每一個標(biāo)簽轉(zhuǎn)移到另一個標(biāo)簽的次數(shù)。比如第二行第四列的19945,代表著【A標(biāo)簽后面接著是C標(biāo)簽】出現(xiàn)了19945次。
以上語料我都提取出來放到代碼目錄的./data下了。
3.4 代碼實現(xiàn)
代碼的思路很直觀,只要按照上面第2部分所說的,準備好5元組數(shù)據(jù),然后用viterbi算法解碼即可。
3.4.1?N:狀態(tài)的有限集合
在機構(gòu)名識別的這個任務(wù)中,論文《基于角色標(biāo)注的中文機構(gòu)名識別》把狀態(tài)(角色)定義為以下集合:
然而在HanLP的語料中,只有以下的標(biāo)簽,有多出來的,又不一樣的:
A,B,C,D,F,G,I,J,K,L,M,P,S,W,X,Z
經(jīng)過我的整理,完整的狀態(tài)(角色)集合如下:
| 角色 | 意義 | 例子 |
| A | 上文 | 參與亞太經(jīng)合組織的活動 |
| B | 下文 | 中央電視臺報道 |
| X | 連接詞 | 北京電視臺和天津電視臺 |
| C | 特征詞的一般性前綴 | 北京電影學(xué)院 |
| F | 特征詞的人名前綴 | 何鏡堂紀念館 |
| G | 特征詞的地名性前綴 | 交通銀行北京分行 |
| K | 特征詞的機構(gòu)名、品牌名前綴 | 中共中央顧問委員會 ? ? 美國摩托羅拉公司 |
| I | 特征詞的特殊性前綴 | 中央電視臺 ? ? 中海油集團 |
| J | 特征詞的簡稱性前綴 | 巴政府 |
| D | 機構(gòu)名的特征詞 | 國務(wù)院僑務(wù)辦公室 |
| Z | 非機構(gòu)成分 | ? |
| L | 方位詞 | 上游 ? ? 東 |
| M | 數(shù)量詞 | 36 |
| P | 數(shù)量+單位(名詞) | 三維 ? ? 兩國 |
| W | 特殊符號,如括號,中括號 | () ? ? 【】 |
| S | 開始標(biāo)志 | 始##始 |
本程序以上面我整理的這個表格的狀態(tài)角色為準(因為HanLP的語料詞典里面就是這樣定義的)。
3.4.2 M:觀察值的有限集合
在這里,觀察值就是我們看到的每個詞。
不過有一個地方要注意一下,在語料詞典nt.txt中,除了所有詞語之外,還有下面8個特殊詞語:
- 始##始
- 末##末
- 未##串
- 未##人
- 未##團
- 未##地
- 未##數(shù)
- 未##時
這些詞語可以在層疊HMM中發(fā)揮作用,加進去可以提高識別精度,因為很多機構(gòu)名里面都有人名和地名。
在使用我的這份代碼之前,你可以用分詞工具先識別出相關(guān)的詞性,然后將對應(yīng)命中的詞語替換為上面的8個特殊詞語,再調(diào)用函數(shù),精確率會大大提高。
3.4.3 A:狀態(tài)轉(zhuǎn)移概率矩陣
在這里,它是指某一個標(biāo)注轉(zhuǎn)移到下一個標(biāo)注的概率。
generate_data.py的generate_transition_probability()函數(shù)就是干這事的,它會生成一個transition_probability.txt,即轉(zhuǎn)移概率矩陣。
3.4.4 B:觀測概率矩陣(發(fā)射概率矩陣)
在這里,他是指在某個標(biāo)注下,生成某個詞的概率。
generate_data.py的generate_emit_probability()函數(shù)就是干這事的,它會生成一個emit_probability.txt,即觀測概率矩陣(發(fā)射概率矩陣)。
3.4.5 π:初始概率矩陣
在這里,它是指每一個標(biāo)注的初始化概率。
generate_data.py的genertate_initial_vector()函數(shù)就是干這事的,它會生成一個initial_vector.txt,即初始概率矩陣。
3.4.6 維特比(viterbi)算法解碼
這部分代碼是參考《統(tǒng)計方法》里面的實現(xiàn)寫的,做了些調(diào)整,使之可以適用于這個機構(gòu)名識別的任務(wù)。函數(shù)為viterbi() ,位于OrgRecognize.py里面。
使用這個函數(shù),就能獲得最佳標(biāo)注序列。
3.4.7 匹配標(biāo)注序列,得到機構(gòu)名
在3.4.6里面,我們可以得到一個標(biāo)注序列,哪些標(biāo)注代表著實體呢?
HanLP作者整理了一個nt.pattern.txt(我也放置在./data/nt.pattern.txt下了),里面是所有可能是機構(gòu)名的序列模式串(有點粗暴,哈哈),然后用Aho-Corasick算法來進行匹配。
為了簡單起見突出重點,我的代碼實現(xiàn)里,用的是循環(huán)遍歷匹配,具體的實現(xiàn)在OrgRecognize.py里面的get_organization,函數(shù)的作用是,輸入原詞語序列、識別出來的標(biāo)注序列和序列模式串,輸出識別出來的機構(gòu)名實體。
3.4.8 使用程序
代碼地址:https://github.com/lipengfei-558/hmm_ner_organization
環(huán)境以及依賴:
- python2.7
- jieba分詞(可選)
首先,運行以下腳本,生成transition_probability.txt,emit_probability.txt以及initial_vector.txt:
| 1 | python generate_data.py |
然后,運行
| 1 | python OrgRecognize.py |
就可以了,不出意外,“中海油集團在哪里”這句話,會識別出“中海油集團”這個機構(gòu)實體。
具體輸入的句子邏輯,可以在main函數(shù)里面靈活修改,也可以結(jié)合jieba一起用。另外,python2.7的中文編碼問題要注意了,如果你的輸出序列很奇怪,很有可能是編碼問題。
4.總結(jié)、待改進
用HMM來實現(xiàn)的命名實體識別算法,關(guān)鍵在于標(biāo)簽的自定義,你需要人工定義盡可能多的標(biāo)簽,然后在訓(xùn)練語料集里面自動標(biāo)注這些標(biāo)簽,這也是最麻煩的地方。標(biāo)注完語料集,生成HMM中的轉(zhuǎn)移概率、初始概率、發(fā)射概率就很簡單了,就是純粹的統(tǒng)計。
整個模型也沒什么參數(shù),用這些統(tǒng)計的數(shù)字即可計算。
算法可能可以改進的點如下:
HMM算法默認只考慮前一個狀態(tài)(詞)的影響,忽略了更多上下文信息(特征)。后來的MEMM、CRF,都是循序漸進的改進方法。傳統(tǒng)機器學(xué)習(xí)方法里面,CRF是主流,下一篇我會繼續(xù)介紹CRF在命名實體識別任務(wù)上的應(yīng)用。
代碼和語料:
https://www.lookfor404.com/命名實體識別的語料和代碼/
https://www.lookfor404.com/%e7%94%a8%e9%9a%90%e9%a9%ac%e5%b0%94%e5%8f%af%e5%a4%ab%e6%a8%a1%e5%9e%8bhmm%e5%81%9a%e5%91%bd%e5%90%8d%e5%ae%9e%e4%bd%93%e8%af%86%e5%88%ab-ner%e7%b3%bb%e5%88%97%e4%ba%8c/
總結(jié)
以上是生活随笔為你收集整理的用隐马尔可夫模型(HMM)做命名实体识别——NER系列(二)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java基础知识融合(Arraylist
- 下一篇: PHP服务Fcgi进程及PHP解析优化