机器学习储备(12):二项分布的例子解析
01
—
二項分布
如果實驗滿足以下兩種條件:
在每次試驗中只有兩種可能的結果,而且兩種結果發生與否互相對立;
相互獨立,與其它各次試驗結果無關;
事件發生與否的概率在每一次獨立試驗中都保持不變。
則實驗的結果對應的分布為二項分布。
當試驗次數為1時,二項分布服從0-1分布。
02
—
例子解析
例如,一堆蘋果有好的,有壞的,從中取10次,定義隨機變量:從中取得好蘋果的個數 X,那么認為X服從二項分布。
實驗得到的結果:比如經過10次實驗后分布結果為:7好,3壞;再經過10次實驗后分布結果為:8好,2壞。經過這20次實驗,可以根據最大似然估計求出我們可求出二項分布的參數theta:從這堆蘋果中取到一個好蘋果的概率。
因為在我們所做的20次實驗中,出現了15好,5壞,因此一次取到好蘋果概率為:15/20 = 0.75,根據最大似然估計的精神,認為從整個樣本中取到一個好蘋果的概率也為:0.75。
下面看下,出現這種分布的概率有多大,由二項分布的概率計算公式:
其中:k表示出現好蘋果的個數,p表示一次實驗出現好蘋果的概率
k的取值范圍為:0~m,最小值為0個好蘋果,最大值為m個好蘋果(所有的都是好蘋果)。
03
—
二項分布圖
在以上我們的20次隨機試驗中,最終得到了15個好果,那么如果依次看下好蘋果的個數 k = 0~20,它們的各自的分布概率P,變化曲線圖是怎樣的呢?
為此在Jupyter NoteBook中實驗下,
#計算組合數 from scipy.special import comb, perm import numpy as np import matplotlib.pyplot as plt#二項分布概率計算公式 def getp(m,n,pa):if m < n:return 0.0return comb(m,n)*(pa**n)*((1-pa)**(m-n))#獲得畫圖數據 klist = np.arange(21) plist = [ getp(m=20,n=k,pa=0.75) for k in klist] plt.plot(klist,plist) plt.xlabel('number of good apples') plt.ylabel('k-distribution proba') plt.title('distribution proba') plt.xticks(np.arange(0,22,1)) plt.grid() plt.show()最終得到的二項分布圖如下:可以看到在k = 15時,取得概率的最大值為0.2,也就是說在取到15個好蘋果的概率是最大的。
取到0~8個好果的概率是很低的,但是取到19,20個好果的概率同樣也是很低的
說明一點:
在這20個蘋果分布中,我們對所取得的好果的個數的期望值:20*0.75=15個,可以看到上面的二項分布圖在 k = 15即取得15個好果的概率是最大的,言外之意,期望值就是分布中最有可能發生的那個分布吧:15好果,5壞果。
04
—
二項分布總結
二項分布是隨機變量為離散型隨機變量且當試驗次數為1時服從0-1分布,它是重復n次的獨立的伯努利試驗。這種分布下,對個數的期望等于二項分布中概率發生最大的取值個數。
總結
以上是生活随笔為你收集整理的机器学习储备(12):二项分布的例子解析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: GameKlip连接器: Android
- 下一篇: Buildroot 开发