【数据挖掘】数据挖掘总结 ( 拉普拉斯修正 | 贝叶斯分类器示例2 ) ★
文章目錄
- 一、 貝葉斯分類器分類的流程
- 二、 拉普拉斯修正
- 三、 貝葉斯分類器示例2
參考博客 :
- 【數據挖掘】貝葉斯分類 ( 貝葉斯分類器 | 貝葉斯推斷 | 逆向概率 | 貝葉斯公式 | 貝葉斯公式推導 | 使用貝葉斯公式求逆向概率 )
- 【數據挖掘】貝葉斯公式應用 拼寫糾正示例分析 ( 先驗概率 | 似然概率 | 后驗概率 )
- 【數據挖掘】貝葉斯公式在垃圾郵件過濾中的應用 ( 先驗概率 | 似然概率 | 后驗概率 )
- 【數據挖掘】樸素貝葉斯分類器 ( 多屬性概率計算 | 樸素貝葉斯分類案例分析 )
- 【數據挖掘】拉普拉斯修正 ( 判別模型 | 概率模型 | 貝葉斯分類 | 拉普拉斯修正 | 樸素貝葉斯分類應用場景 | 樸素貝葉斯優缺點 )
- 【數據挖掘】貝葉斯信念網絡 ( 馬爾科夫假設 | 結構 | 有向無環圖 | 參數 | 條件概率表 | 案例分析 )
一、 貝葉斯分類器分類的流程
已知條件 :
已知樣本 : 已知若干個樣本
未知樣本 : 給定 111 個未知樣本 , 其有 444 個屬性組成向量 X\rm XX , 樣本的分類有兩種 , Y\rm YY 和 N\rm NN ; ( Yes / No )
分類步驟 :
計算兩個概率 , 即
① 樣本取值為 X\rm XX 向量時 , 分類為 Y\rm YY 的概率 , 公式為 P(Y∣X)=P(X∣Y)P(Y)P(X)\rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)}P(Y∣X)=P(X)P(X∣Y)P(Y)? , 其中 P(X∣Y)P(Y)\rm P(X | Y) P(Y)P(X∣Y)P(Y) 含義是 : 樣本分類 Y\rm YY 的概率 P(Y)\rm P(Y)P(Y) , 乘以 樣本分類為 Y\rm YY 前提下樣本取值 X\rm XX 時的概率 P(X∣Y)\rm P(X | Y)P(X∣Y) , 是 P(XY)\rm P(XY)P(XY) 共同發生的概率 ;
② 樣本取值為 X\rm XX 向量時 , 分類為 N\rm NN 的概率 , 公式為 P(N∣X)=P(X∣N)P(N)P(X)\rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)}P(N∣X)=P(X)P(X∣N)P(N)? , 其中 P(X∣N)P(N)\rm P(X | N) P(N)P(X∣N)P(N) 含義是 : 樣本分類為 N\rm NN 的概率 P(N)\rm P(N)P(N) , 乘以 樣本取值 N\rm NN 時的概率 P(X∣N)\rm P(X | N)P(X∣N) , 是 P(XN)\rm P(XN)P(XN) 共同發生的概率 ;
上述兩個概率 , 哪個概率高 , 就將該樣本分為哪個分類 ;
先驗概率 : P(Y)\rm P(Y)P(Y) , P(N)\rm P(N)P(N) ;
后驗概率 : P(X∣Y)\rm P(X | Y)P(X∣Y) , P(X∣N)\rm P(X | N)P(X∣N) ;
公式中每個元素的含義參考 【數據挖掘】貝葉斯分類 ( 貝葉斯分類器 | 貝葉斯推斷 | 逆向概率 | 貝葉斯公式 | 貝葉斯公式推導 | 使用貝葉斯公式求逆向概率 )
上述兩個公式 P(Y∣X)=P(X∣Y)P(Y)P(X)\rm P(Y|X) = \cfrac{P(X | Y) P(Y)}{P(X)}P(Y∣X)=P(X)P(X∣Y)P(Y)? 和 P(N∣X)=P(X∣N)P(N)P(X)\rm P(N|X) = \cfrac{P(X | N) P(N)}{P(X)}P(N∣X)=P(X)P(X∣N)P(N)? , 分母都是 P(X)\rm P(X)P(X) , 只比較分子即可 , 其中先驗概率 P(Y)\rm P(Y)P(Y) , P(N)\rm P(N)P(N) 很容易求得 , 重點是求兩個后驗概率 P(X∣Y)P(Y)\rm P(X | Y) P(Y)P(X∣Y)P(Y) , P(X∣N)P(N)\rm P(X | N) P(N)P(X∣N)P(N) ;
后驗概率 P(X∣Y)\rm P(X | Y)P(X∣Y) 求法 : 針對 X\rm XX 向量中 444 個分量屬性的取值 , 當樣品類型是 Y\rm YY 時 , 分量 111 取值為該分量屬性時的概率 , 同理計算出 444 個分量屬性對應的 444 個概率 , 最后將 四個概率相乘 ;
后驗概率 P(X∣Y)\rm P(X | Y)P(X∣Y) 再乘以先驗概率 P(Y)\rm P(Y)P(Y) , 就是最終的 未知樣本分類為 Y\rm YY 類型的概率 ;
最終對比樣本 , ① 未知樣本分類為 Y\rm YY 類型的概率 , ② 未知樣本分類為 N\rm NN 類型的概率 , 哪個概率大 , 就分類為哪個類型 ;
二、 拉普拉斯修正
在計算后驗概率 P(X∣Y)\rm P(X | Y)P(X∣Y) 時 , 需要計算出 當樣品類型是 Y\rm YY 時 , X\rm XX 向量的 分量 111 取值為該分量屬性時的概率 , 同理計算出 444 個分量屬性對應的 444 個概率 , 最后將 四個概率相乘 ;
如果上述 444 個相乘的概率其中有一個是 000 , 那么最終結果肯定就是 000 , 這里需要避免這種情況 , 引入拉普拉斯修正 ;
直接上栗子 , 不扯公式 ;
如果計算時 , 999 個樣本是購買商品的 , 但年齡都大于 303030 , 計算過程如下 ;
P(年齡小于30∣Y)=09\rm P( 年齡小于 30 | Y) = \cfrac{0}{9}P(年齡小于30∣Y)=90?
拉普拉斯修正就是分子加 111 , 分母加上樣本類型個數 222 ; ( 樣本有兩個類型 , Y\rm YY 購買商品 , N\rm NN 不購買商品 ) ;
P(年齡小于30∣Y)=0+19+2=111\rm P( 年齡小于 30 | Y) = \cfrac{0 + 1}{9 + 2} = \cfrac{1}{11}P(年齡小于30∣Y)=9+20+1?=111?
注意是所有的分量的概率都要進行拉普拉斯修正 , 不能只修正這一個 ;
具體的詳細的公式以及理論查看 【數據挖掘】拉普拉斯修正 ( 判別模型 | 概率模型 | 貝葉斯分類 | 拉普拉斯修正 | 樸素貝葉斯分類應用場景 | 樸素貝葉斯優缺點 )
三、 貝葉斯分類器示例2
分類需求 : 根據 年齡 , 收入水平 , 級別 , 部門 , 人數 , 預測 " 年齡 31..3531..3531..35, 收入 41k..45k\rm 41k..45k41k..45k , systems\rm systemssystems 部門 " 的員工級別 ;
| 31..3531..3531..35 | 46k..50k\rm 46k..50k46k..50k | senior\rm seniorsenior | sales\rm salessales | 303030 |
| 26..3026..3026..30 | 26k..30k\rm 26k..30k26k..30k | junior\rm juniorjunior | sales\rm salessales | 40\rm 4040 |
| 31..3531..3531..35 | 31k..35k\rm 31k..35k31k..35k | junior\rm juniorjunior | sales\rm salessales | 40\rm 4040 |
| 21..2521..2521..25 | 46k..50k\rm 46k..50k46k..50k | junior\rm juniorjunior | systems\rm systemssystems | 20\rm 2020 |
| 31..3531..3531..35 | 66k..70k\rm 66k..70k66k..70k | senior\rm seniorsenior | systems\rm systemssystems | 5\rm 55 |
| 26..3026..3026..30 | 46k..50k\rm 46k..50k46k..50k | junior\rm juniorjunior | systems\rm systemssystems | 3\rm 33 |
| 41..4541..4541..45 | 66k..45k\rm 66k..45k66k..45k | senior\rm seniorsenior | systems\rm systemssystems | 3\rm 33 |
| 36..4036..4036..40 | 46k..50k\rm 46k..50k46k..50k | senior\rm seniorsenior | marketing\rm marketingmarketing | 10\rm 1010 |
| 31..3531..3531..35 | 41k..45k\rm 41k..45k41k..45k | junior\rm juniorjunior | marketing\rm marketingmarketing | 4\rm 44 |
| 46..5046..5046..50 | 36k..40k\rm 36k..40k36k..40k | senior\rm seniorsenior | secretary\rm secretarysecretary | 4\rm 44 |
| 26..3026..3026..30 | 26k..30k\rm 26k..30k26k..30k | junior\rm juniorjunior | secretary\rm secretarysecretary | 6\rm 66 |
未知樣本 取值 X\rm XX 向量 為 " 年齡 31..3531..3531..35, 收入 41k..45k\rm 41k..45k41k..45k , systems\rm systemssystems 部門 " ;
未知樣本 分類為 senior\rm seniorsenior ( 高級 ) 類型的概率 : P(senior∣X)=P(X∣senior)P(senior)P(X)\rm P(senior | X) = \cfrac{P(X|senior) P(senior)}{P(X)}P(senior∣X)=P(X)P(X∣senior)P(senior)?
未知樣本 分類為 junior\rm juniorjunior ( 低級 ) 類型的概率 : P(junior∣X)=P(X∣junior)P(junior)P(X)\rm P(junior | X) = \cfrac{P(X|junior) P(junior)}{P(X)}P(junior∣X)=P(X)P(X∣junior)P(junior)?
上述兩個概率的分母 P(X)\rm P(X)P(X) 是常數 , 對比時可以忽略 , 只需要對比分子即可 ;
先驗概率 P(senior)=52165\rm P(senior) = \cfrac{52}{165}P(senior)=16552? , P(junior)=113165\rm P(junior) = \cfrac{113}{165}P(junior)=165113? , 525252 個人是 senior\rm seniorsenior 級別 , 113113113 個人是 junior\rm juniorjunior 級別 ;
后驗概率
① P(X∣senior)=P(年齡31..35∣senior)×P(收入41k..45k∣senior)×P(部門systems∣senior)=852×3552×052\rm \begin{array}{lcl} \rm P(X|senior) &=& \rm P( 年齡 31..35 | senior) \times P( 收入 41k..45k | senior) \times P( 部門 systems | senior ) \\\\ &=& \cfrac{8}{52} \times \cfrac{35}{52} \times \cfrac{0}{52} \\ \end{array}P(X∣senior)?==?P(年齡31..35∣senior)×P(收入41k..45k∣senior)×P(部門systems∣senior)528?×5235?×520??
上述后驗概率的結果為 0\rm 00 , 需要進行 拉普拉斯修正 , 上述式子中的三個概率分子都需要 +1+1+1 , 分母都需要 +2+2+2 , 分母是分類的個數 , senior\rm seniorsenior 和 junior\rm juniorjunior 兩個分類 , 因此分母 +2+2+2 ;
拉普拉斯修正后的結果 :
P(X∣senior)=8+152+2×35+152+2×0+152+2=954×3654×154\rm \begin{array}{lcl} \rm P(X|senior) &=& \rm \cfrac{8 + 1}{52 + 2} \times \cfrac{35 + 1}{52 + 2} \times \cfrac{0 + 1}{52 + 2} \\\\ &=& \cfrac{9}{54} \times \cfrac{36}{54} \times \cfrac{1}{54} \\ \end{array}P(X∣senior)?==?52+28+1?×52+235+1?×52+20+1?549?×5436?×541??
② P(X∣junior)=P(年齡31..35∣junior)×P(收入41k..45k∣junior)×P(部門systems∣junior)=23113×44113×4113\rm \begin{array}{lcl} \rm P(X|junior) &=& \rm P( 年齡 31..35 | junior) \times P( 收入 41k..45k | junior) \times P( 部門 systems | junior) \\\\ &=& \cfrac{23}{113} \times \cfrac{44}{113} \times \cfrac{4}{113} \\ \end{array}P(X∣junior)?==?P(年齡31..35∣junior)×P(收入41k..45k∣junior)×P(部門systems∣junior)11323?×11344?×1134??
未知樣本 分類為 Y\rm YY 類型的概率 分子 : P(X∣senior)P(senior)=954×3654×154×52165≈0.0006\rm P(X|senior) P(senior) = \cfrac{9}{54} \times \cfrac{36}{54} \times \cfrac{1}{54} \times \cfrac{52}{165} \approx 0.0006P(X∣senior)P(senior)=549?×5436?×541?×16552?≈0.0006
未知樣本 分類為 N\rm NN 類型的概率 分子 : P(X∣junior)P(junior)=23113×44113×4113×113165≈0.0024\rm P(X|junior) P(junior) = \cfrac{23}{113} \times \cfrac{44}{113} \times \cfrac{4}{113} \times \cfrac{113}{165} \approx 0.0024P(X∣junior)P(junior)=11323?×11344?×1134?×165113?≈0.0024
該樣本分類 為 junior\rm juniorjunior , 是低級員工 ;
總結
以上是生活随笔為你收集整理的【数据挖掘】数据挖掘总结 ( 拉普拉斯修正 | 贝叶斯分类器示例2 ) ★的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【音频处理】Adobe Audition
- 下一篇: 【数据挖掘】数据挖掘总结 ( K-Mea