HMM、MEMM、CRF模型比较和标注偏置问题(Label Bias Problem)
本文轉自:http://www.cnblogs.com/syx-1987/p/4077325.html
路徑1-1-1-1的概率:0.4*0.45*0.5=0.09
路徑2-2-2-2的概率:0.018
路徑1-2-1-2:0.06
路徑1-1-2-2:0.066
由此可得最優路徑為1-1-1-1
而實際上,在上圖中,狀態1偏向于轉移到狀態2,而狀態2總傾向于停留在狀態2,這就是所謂的標注偏置問題,
由于分支數不同,概率的分布不均衡,導致狀態的轉移存在不公平的情況。
PS:標注偏置問題存在于最大熵馬爾可夫模型(MEMM)中,雖然MEMM解決了HMM輸出獨立性假設的問題,但是只解決了觀察值獨立的問題,狀態之間的假設則是標注偏置問題產生的根源,CRF則解決了標注偏置問題,是HMM模型的進一步優化。
HMM模型中存在兩個假設:一是輸出觀察值之間嚴格獨立,二是狀態的轉移過程中當前狀態只與前一狀態有關(一階馬爾可夫模型)。
MEMM模型克服了觀察值之間嚴格獨立產生的問題,但是由于狀態之間的假設理論,使得該模型存在標注偏置問題。
CRF模型解決了標注偏置問題,去除了HMM中兩個不合理的假設,當然,模型相應得也變復雜了。 ?
這三個模型都可以用來做序列標注模型。但是其各自有自身的特點,HMM模型是對轉移概率和表現概率直接建模,統計共現概率。而MEMM模型是對轉移概率和表現概率建立聯合概率,統計時統計的是條件概率。MEMM容易陷入局部最優,是因為MEMM只在局部做歸一化,而CRF模型中,統計了全局概率,在做歸一化時,考慮了數據在全局的分布,而不是僅僅在局部歸一化,這樣就解決了MEMM中的標記偏置的問題。
?
舉個例子,對于一個標注任務,“我愛北京天安門“,
????????????????????????????????? 標注為" s s? b? e b c e"
對于HMM的話,其判斷這個標注成立的概率為 P= P(s轉移到s)*P('我'表現為s)* P(s轉移到b)*P('愛'表現為s)* ...*P().訓練時,要統計狀態轉移概率矩陣和表現矩陣。
對于MEMM的話,其判斷這個標注成立的概率為 P= P(s轉移到s|'我'表現為s)*P('我'表現為s)* P(s轉移到b|'愛'表現為s)*P('愛'表現為s)*..訓練時,要統計條件狀態轉移概率矩陣和表現矩陣。
對于CRF的話,其判斷這個標注成立的概率為 P=?F(s轉移到s,'我'表現為s)....F為一個函數,是在全局范圍統計歸一化的概率而不是像MEMM在局部統計歸一化的概率。
?
HMMs(隱馬爾科夫模型):
???狀態序列不能直接被觀測到(hidden);
?????每一個觀測被認為是狀態序列的隨機函數;
?????狀態轉移矩陣是隨機函數,根據轉移概率矩陣來改變狀態。
?????HMMs與MRF的區別是只包含標號場變量,不包括觀測場變量。
MRF(馬爾科夫隨機場)
?????將圖像模擬成一個隨機變量組成的網格。
?????其中的每一個變量具有明確的對由其自身之外的隨機變量組成的近鄰的依賴性(馬爾科夫性)。
CRF(條件隨機場),又稱為馬爾可夫隨機域
?????一種用于標注和切分有序數據的條件概率模型。
?????從形式上來說CRF可以看做是一種無向圖模型,考察給定輸入序列的標注序列的條件概率。
?
CRF,HMM和MEHMM是在序列標注中常用的三種模型,但是也各有優缺點,現在從以下幾個方面進行以下比較:
1)生成式模型or判別式模型(假設 o 是觀察值,m 是模型。)
????a)生成式模型:無窮樣本 -> 概率密度模型 = 產生式模型 -> 預測
????????如果對 P(o|m) 建模,就是生成式模型。其基本思想是首先建立樣本的概率密度模型,再利用模型進行推理預測。要求已知樣本無窮或盡可能的大限制。這種方法一般建立在統計力學和 Bayes 理論的基礎之上。
????????HMM模型對轉移概率和表現概率直接建模,統計共同出現的概率,是一種生成式模型。
b)判別式模型:有限樣本 -> 判別函數 = 判別式模型 -> 預測
?????????如果對條件概率 P(m|o) 建模,就是判別模型。其基本思想是有限樣本條件下建立判別函數,不考慮樣本的產生模型,直接研究預測模型。代表性理論為統計學習理論。
?????????CRF是一種判別式模型。MEMM不是一種生成式模型,它是一種基于下狀態分類的有限狀態模型。
2)拓撲結構
????HMM和MEMM是一種有向圖,CRF是一種無向圖
3)全局最優or局部最優
????HMM對轉移概率和表現概率直接建模,統計共現概率。
????MEMM是對轉移概率和表現概率建立聯合概率,統計時統計的是條件概率,由于其只在局部做歸一化,所以容易陷入局部最優。
????CRF是在全局范圍內統計歸一化的概率,而不像是MEMM在局部統計歸一化概率。是全局最優的解。解決了MEMM中標注偏置的問題。
???
4)優缺點比較
????優點:
???a)與HMM比較。CRF沒有HMM那樣嚴格的獨立性假設條件,因而可以容納任意的上下文信息。特征設計靈活(與ME一樣)
???b)與MEMM比較。由于CRF計算全局最優輸出節點的條件概率,它還克服了最大熵馬爾可夫模型標記偏置(Label-bias)的缺點。
???c)與ME比較。CRF是在給定需要標記的觀察序列的條件下,計算整個標記序列的聯合概率分布,而不是在給定當前狀態條件下,定義下一個狀態的狀態分布。
????缺點:訓練代價大、復雜度高
轉載于:https://www.cnblogs.com/hellochennan/p/6624543.html
總結
以上是生活随笔為你收集整理的HMM、MEMM、CRF模型比较和标注偏置问题(Label Bias Problem)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 接口的基本知识
- 下一篇: 两种高效的事件处理模式