【机器学习具体解释】概率生成模型与朴素贝叶斯分类器
轉(zhuǎn)載請(qǐng)注明出處http://blog.csdn.net/luoshixian099/article/details/51028244
1.概率生成模型
首先介紹生成模型的概念,然后逐步介紹採(cǎi)用生成模型的步驟。
1.1概念
即對(duì)每一種類(lèi)別Ck分別建立一種數(shù)據(jù)模型p(x|Ck)。把待分類(lèi)數(shù)據(jù)x分別帶入每種模型中,計(jì)算后驗(yàn)概率p(Ck|x),選擇最大的后驗(yàn)概率相應(yīng)的類(lèi)別。
如果原始數(shù)據(jù)樣本有K類(lèi),生成學(xué)習(xí)算法是通過(guò)對(duì)原始數(shù)據(jù)類(lèi)p(x|Ck)與p(Ck)建立數(shù)據(jù)類(lèi)模型后,採(cǎi)用貝葉斯定理從而得出后驗(yàn)概率p(Ck|x)。對(duì)待分類(lèi)樣本x分別計(jì)算屬于每一個(gè)類(lèi)別的后驗(yàn)概率p(Ck|x),取最大可能的類(lèi)別。argmax(k)=p(Ck|x)=p(x,Ck)p(x)=p(x|Ck)p(Ck)∑jp(x|Cj)p(Cj)
二分類(lèi)的情況:(K=2)
p(C1|x)=p(x,C1)p(x)=p(x|C1)p(C1)p(x|C1)p(C1)+p(x|C2)p(C2)=11+exp(?α)=σ(α)當(dāng)中α=lnp(x|C1)p(C1)p(x|C2)p(C2);函數(shù)σ(α)=11+exp(?α)稱(chēng)為sigmoid函數(shù)。
多類(lèi)的情況:(K>2)
多分類(lèi)的情況,是二分類(lèi)的擴(kuò)展,稱(chēng)為softmax函數(shù)。同樣採(cǎi)用貝葉斯定理:p(Ck|x)=p(x|Ck)p(Ck)∑jp(x|Cj)p(Cj)=exp(αk)∑jexp(αj)
當(dāng)中αk=lnp(x|Ck)p(Ck)。
1.2高斯分布如果
對(duì)于連續(xù)變量x,我們首先如果給定詳細(xì)類(lèi)條件下數(shù)據(jù)密度函數(shù)p(x|Ck)分布服從多維高斯分布。同一時(shí)候全部類(lèi)別p(x|Ck)具有同樣的協(xié)方差矩陣∑:
二維高斯分布。同樣方差,不同期望的三個(gè)圖形。
二分類(lèi)情況K=2
把多維高斯分布公式帶入上述相應(yīng)的貝葉斯公式得:
注意到sigmoid函數(shù)參數(shù)是關(guān)于數(shù)據(jù)x的線(xiàn)性函數(shù)
下圖是2維數(shù)據(jù)的高斯分布圖形:
多分類(lèi)的情況K>2
多維高斯分布函數(shù)帶入softmax函數(shù)得:
注意:αk(x)也是關(guān)于樣本數(shù)據(jù)x的線(xiàn)性函數(shù)
實(shí)際上,不管是連續(xù)型數(shù)據(jù)還是以下將要介紹的離散型數(shù)據(jù)(樸素貝葉斯分類(lèi)),僅僅要如果的分布屬于指數(shù)簇函數(shù),都有廣義線(xiàn)性模型的結(jié)論。
K=2時(shí)為sigmoid函數(shù):參數(shù)λ為模型的固有參數(shù)
K>2時(shí)為softmax函數(shù):
1.3模型參數(shù)的求解
在如果了數(shù)據(jù)類(lèi)密度函數(shù)p(x|Ck)的情況下,以下須要對(duì)模型的參數(shù)進(jìn)行求解。
比如,上述如果了數(shù)據(jù)為高斯分布,須要計(jì)算先驗(yàn)概率p(Ck)及參數(shù)μk,∑ .我們採(cǎi)用最大化釋然函數(shù)的方法求解:
考慮二分類(lèi)的情況:樣本數(shù)據(jù)為(xn,tn)。樣本總量為N,tn=1屬于C1類(lèi),總數(shù)為N1;tn=0屬于C2類(lèi),總數(shù)為N2.如果先驗(yàn)概率p(C1)=π;則p(C2)=1?π
釋然函數(shù):
分別求偏導(dǎo)數(shù)并令為0,得:
2.樸素貝葉斯分類(lèi)器(NBC)
2.1概念
樸素貝葉斯分類(lèi)器是生成學(xué)習(xí)算法的一種。考慮一個(gè)樣本x=(x1,x2,x3...xD),有D個(gè)特征,每一個(gè)特征xi取值為有限的離散值,這時(shí)須要對(duì)p(x|y)建立模型。樸素貝葉斯算法做了一種非常強(qiáng)的如果:即給定類(lèi)別y=c的情況下。每種特征之間相互獨(dú)立,即有p(x1|y,x2)=p(x1|y);p(x1,x2|y)=p(x1|y)p(x2|y)所以有:
條件類(lèi)概率p(x|y)可依據(jù)數(shù)據(jù)類(lèi)型建立不同的形式:
當(dāng)樣本數(shù)據(jù)x取實(shí)數(shù)值為時(shí),採(cǎi)用高斯分布:p(x|y=c,θ)=∏Dj=1N(xj|μjc,σ2jc)
當(dāng)每種特征xj∈{0,1}時(shí),採(cǎi)用伯努利分布p(x|y=c,θ)=∏Dj=1Ber(xj|μjc)
當(dāng)每種特征取值xj∈{1,2,3,...,K},能夠採(cǎi)用multinoulli distribution:p(x|y=c,θ)=∏Dj=1Cat(xj|μjc)
2.2文本分類(lèi)
樸素貝葉斯盡管做了非常強(qiáng)的特征獨(dú)立性如果,卻對(duì)在文本分類(lèi)的情況效果非常好。
首先收集全部樣本數(shù)據(jù)中出現(xiàn)過(guò)的詞,建立一個(gè)有序字典,長(zhǎng)度為D。對(duì)待分類(lèi)文本x依據(jù)字典建立一個(gè)長(zhǎng)度為D詞向量,x=(x1,x2,x3,....,xD),每種特征xj∈{0,1}。即xj=1表示字典中第j個(gè)詞在此文本中出現(xiàn)過(guò);反之,xj=0表示字典中第j個(gè)詞沒(méi)有在文本中出現(xiàn)過(guò),採(cǎi)用伯努利分布p(x,y)=p(y)p(x|y)=p(y)∏Dj=1Ber(xj|μjc)。
定義:?i|y=0=p(xi=1|yi=0),?i|y=1=p(xi=1|yi=1),?y=p(y=1)
釋然函數(shù):
最大釋然預(yù)計(jì)得:
訓(xùn)練出模型后,對(duì)待分類(lèi)樣本依據(jù)貝葉斯定理。計(jì)算每種類(lèi)別的后驗(yàn)概率,選擇最大的后驗(yàn)概率類(lèi)別:
2.3拉普拉斯平滑
在對(duì)文本分類(lèi)的情況下,假如我們訓(xùn)練分類(lèi)器採(cǎi)用的訓(xùn)練文本全部xj都為0時(shí)。這時(shí)模型參數(shù)?j|y=0=0,?j|y=1=0。這時(shí)如果須要對(duì)待一個(gè)文本x分類(lèi)且xj=1,依據(jù)上述樸素貝葉斯方法,得到每種后驗(yàn)概率都為0,即p(y=1|x)=0,P(y=0|x)=0。這是因?yàn)樯鲜龀朔ǖ木壒剩驹蚴?j|y=0=0,?j|y=1=0。因?yàn)闃颖玖坑邢蓿A(yù)測(cè)某個(gè)事件的發(fā)生概率為0,也是不準(zhǔn)確的。
為了解決這樣的情況。能夠模型參數(shù)的分子加上1,同一時(shí)候保持和為1。,稱(chēng)為拉普拉斯平滑。
參考:PRML&&MLAPP
總結(jié)
以上是生活随笔為你收集整理的【机器学习具体解释】概率生成模型与朴素贝叶斯分类器的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 毛概 第二章新民主主义革命理论
- 下一篇: 如何兼职创业并避免风险