统计学习笔记(4)——朴素贝叶斯法
?樸素貝葉斯法是基于貝葉斯定理與特征條件獨立假設(shè)的分類方法。簡單來說,樸素貝葉斯分類器假設(shè)樣本每個特征與其他特征都不相關(guān)。舉個例子,如果一種水果具有紅,圓,直徑大概4英寸等特征,該水果可以被判定為是蘋果。盡管這些特征相互依賴或者有些特征由其他特征決定,然而樸素貝葉斯分類器認為這些屬性在判定該水果是否為蘋果的概率分布上獨立的。盡管是帶著這些樸素思想和過于簡單化的假設(shè),但樸素貝葉斯分類器在很多復(fù)雜的現(xiàn)實情形中仍能夠取得相當(dāng)好的效果。樸素貝葉斯分類器的一個優(yōu)勢在于只需要根據(jù)少量的訓(xùn)練數(shù)據(jù)估計出必要的參數(shù)(離散型變量是先驗概率和類條件概率,連續(xù)型變量是變量的均值和方差)。
1.貝葉斯分類模型
? ? ? ? 貝葉斯分類模型如下:
? ? ? ?其中,X表示屬性集,Y表示類變量,P(Y)為先驗概率,P(X|Y)為類條件概率,P(X)為證據(jù),P(Y|X)為后驗概率。貝葉斯分類模型就是用先驗概率P(Y)、類條件概率P(X|Y)和證據(jù)P(X)來表示后驗概率。在比較Y的后驗概率時,分母中的證據(jù)P(X)總是常數(shù),因此可以忽略不計。先驗概率P(Y)可以通過計算訓(xùn)練集中屬于每個類的訓(xùn)練記錄所占的比例很容易估計。對類條件概率P(X|Y)的估計,不同的實現(xiàn)決定不同的貝葉斯分類方法,常見的有樸素貝葉斯分類法和貝葉斯信念網(wǎng)絡(luò)。
2.樸素貝葉斯分類模型
3.實例
? ? ? ? 數(shù)據(jù)集如下:
? ? ? ? ?從該數(shù)據(jù)集計算得到的先驗概率以及每個離散屬性的類條件概率、連續(xù)屬性的類條件概率分布的參數(shù)(樣本均值和方差)如下:
先驗概率:P(Yes)=0.3;P(No)=0.7
P(有房=是|No) = 3/7
P(有房=否|No) = 4/7
P(有房=是|Yes) = 0
P(有房=否|Yes) = 1
P(婚姻狀況=單身|No) = 2/7
P(婚姻狀況=離婚|No) = 1/7
P(婚姻狀況=已婚|No) = 4/7
P(婚姻狀況=單身|Yes) = 2/3
P(婚姻狀況=離婚|Yes) = 1/3
P(婚姻狀況=已婚|Yes) = 0
年收入:
如果類=No:樣本均值=110; 樣本方差=2975
如果類=Yes:樣本均值=90; 樣本方差=25
——》待預(yù)測記錄:X={有房=否,婚姻狀況=已婚,年收入=120K}
P(No)*P(有房=否|No)*P(婚姻狀況=已婚|No)*P(年收入=120K|No)=0.7*4/7*4/7*0.0072=0.0024
P(Yes)*P(有房=否|Yes)*P(婚姻狀況=已婚|Yes)*P(年收入=120K|Yes)=0.3*1*0*1.2*10-9=0
由于0.0024大于0,所以該記錄分類為No。
從上面的例子可以看出,如果有一個屬性的類條件概率等于0,則整個類的后驗概率就等于0。僅僅使用記錄比例來估計類條件概率的方法顯得太脆弱了,尤其是當(dāng)訓(xùn)練樣例很少而屬性數(shù)目又很多時。解決該問題的方法是使用m估計方法來估計條件概率:
總結(jié)
以上是生活随笔為你收集整理的统计学习笔记(4)——朴素贝叶斯法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 统计学习笔记(3)——k近邻法与kd树
- 下一篇: SVM学习(一):SVM概念