【机器学习基础】一文读懂用于序列标注的条件随机场(CRF)模型
模型前的鋪墊
我們先引入一個假設,假設一個句子的產(chǎn)生只需要兩步:
第一步:基于語法產(chǎn)生一個合乎文法的詞性序列
第二步:對第一步產(chǎn)生的序列中的每個詞性找到符合這個詞性的一個詞匯,從而產(chǎn)生一個詞匯序列,便產(chǎn)生出了一個句子
圖1
那么如圖1所示,假如我們基于語法產(chǎn)生了一個詞性序列("PN V D N"),那基于這樣的詞性序列到對應的詞典集合中選詞便可以組合出一個句子。
圖2
假如我們產(chǎn)生的句子是"John saw the saw",那么如圖2所示,每個詞都有一定的概率被選出,基于詞性序列("PN V D N")產(chǎn)生這個句子的概率為:
如果把詞性序列用y表示,把句子的詞匯序列用x表示,那么上述句子的生成可以表示為:
這樣我們就可以得到序列x、y同時出現(xiàn)的概率P(x,y):
其中P(y)表示序列y出現(xiàn)的概率:
P(x|y)表示基于序列y生成序列x的概率:
基于上述想法,我們可以得到更一般化的表示:
從而P(y)可以更一般的表示為:
同樣P(x|y)可以更一般的表示為:
那么可以得到P(x,y)更一般的表示為:
圖3
再來看圖3,當序列x是已知的或者說是可觀測的,而標記序列y是隱藏的或者說是未知的,那么如何來求得理想標記序列y呢?我們通過采取求解條件概率P(y|x)來求得,即:
其中y是一個可能的標記序列,Y是所有可能的標記序列。上式的意義在于期望求得一個能使條件概率P(y|x)最大的標記序列y。也就是說,如果我知道了P(y|x)如何求,再把每個可能的標記序列y帶進去,就能得到想要求得的理想標記序列y。
CRF模型引入
基于上述的鋪墊,下面我們開始引入條件隨機場模型。
條件隨機場(CRF)模型可以用如下式子來描述:
其中:
w表示權重向量
表示特征向量
現(xiàn)在我們重點來關注如何求解條件概率P(y|x)
輔助理解
從標注問題的角度來理解條件概率P(y|x)的含義。x表示給定的待標注序列,y表示給定x下對應的一個標記序列。我們希望通過求解條件概率P(y|x)來得到給定x條件下對應的一個理想標注序列
P(y|x)可以表示為:
我們知道
不妨設
輔助理解
R為比例系數(shù)
將上式帶入P(y|x)的表達式中可得
輔助理解
Y表示所有可能的標注序列的集合,y'表示所有標注序列的集合中的某個標注序列
觀察上式,可以看到分母部分其實只和x有關,所以可以將其簡化的表示為Z(x),即:
也就是說,要求P(y|x),關鍵在于求解P(x,y),由之前的鋪墊,我們知道:
我們對上式兩邊取對數(shù)得:
其中
上式是如何來的呢?
圖4
如圖4所示,可得:
從而
同樣,我們也能得到
從而
我們可以將上式向量化表示為:
我們可以令
其中
由于的值可能會大于1,這就不能用來表示概率了,所以
參考資料:
李宏毅《Sequence Labeling Problem》課程
英文原文:https://medium.com/visionwizard/object-tracking-675d7a33e687
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統(tǒng)計學習方法》的代碼復現(xiàn)專輯 AI基礎下載機器學習的數(shù)學基礎專輯獲取一折本站知識星球優(yōu)惠券,復制鏈接直接打開:
https://t.zsxq.com/y7uvZF6
本站qq群704220115。
加入微信群請掃碼:
總結
以上是生活随笔為你收集整理的【机器学习基础】一文读懂用于序列标注的条件随机场(CRF)模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【推荐系统】面向科研的推荐系统Bench
- 下一篇: 【NLP】情感分析实战:金融市场中的NL