数据挖掘建模之常见概率分布总结
1、隨機(jī)變量的定義:?
?在一次實(shí)驗(yàn)中出現(xiàn)的所以結(jié)果次數(shù)M,將每一種結(jié)果映射到某種數(shù)值函數(shù)X(e)(e表示是某一次實(shí)驗(yàn)發(fā)生的結(jié)果),這種命映射的結(jié)果值稱為隨機(jī)變量。
2、隨機(jī)變量分為離散型和連續(xù)型的。
3、分布律:只有離散型隨機(jī)變量具有分布律,例如:離散型隨機(jī)變量的x的分布律是0,1,2; 分別對應(yīng)的概率是0.3, 0.4, 0.3。
4、分布函數(shù):該概念對于離散型和連續(xù)型都是適用的。F(x)=p{X<=x},則F(x)叫做隨機(jī)變量X的分布函數(shù)(注意大寫X,小寫x的區(qū)別。)
5:連續(xù)型的分布律的定義:再有了分布函數(shù)的基礎(chǔ)上面,我們在來定義分布律;如下圖
則X成為連續(xù)型隨機(jī)變量,f(x)稱為密度函數(shù)。這個可以類比離散型的分布律。
下面介紹一下常見的各種分布;
??1、01分布?
???????對于01分布,隨機(jī)變量只有兩種,而且實(shí)驗(yàn)只是進(jìn)行了一下。
??2、伯努利分布
???????相對于01分布,隨機(jī)變量兩種,但是實(shí)驗(yàn)室重復(fù)了N次。
??3、泊松分布:
??????泊松分布適合在給定一個已知平均值的情況下對固定時(shí)間步長內(nèi)事件的發(fā)生次數(shù)概率進(jìn)行建模。這些事件與它們最后一次發(fā)生的狀態(tài)無關(guān)。X 軸上是 0、1、2、3、4(以此類推)等事件的離散值(通常表示事件的發(fā)生次數(shù)),Y 軸上是現(xiàn)象的發(fā)生概率(通常是給定一個已知平均值)。這些事件可以是十字路口的事故發(fā)生次數(shù)、出生缺陷數(shù)量或一平方公里內(nèi)駝鹿的數(shù)量。泊松分布可以對小概率事件進(jìn)行建模。這種分布有時(shí)也被稱為小數(shù)定律 (Law of small numbers),因?yàn)槭录唤?jīng)常發(fā)生,但仍有很多機(jī)會讓它發(fā)生。
其中的參數(shù)說明:??x表示的是事件可能發(fā)生的次數(shù)(正整數(shù));?
???????????????????????????λ是一個平均值,表示在一定區(qū)間內(nèi)事件預(yù)計(jì)發(fā)生的次數(shù),
泊松分布與二項(xiàng)分布類似,但泊松分布是在不知道事件的可能發(fā)生總次數(shù)的情況下對小概率事件建模。泊松分布的建模對象是十字路口的事故發(fā)生次數(shù),而二項(xiàng)分布的建模對象是事故發(fā)生次數(shù)與經(jīng)由十字路口的汽車數(shù)量之間的相對關(guān)系。
期望值:λ(即,平均值)
?方差:方差σ2與均數(shù)λ相等,即σ2=λ
以上博客參考了:http://hongyitong.github.io/2016/11/13/%E4%BA%8C%E9%A1%B9%E5%88%86%E5%B8%83%E3%80%81%E6%B3%8A%E6%9D%BE%E5%88%86%E5%B8%83%E3%80%81%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83/
poisson分布的性質(zhì):?
????????1、poisson分布是單參數(shù)你的離散型分布,其中參數(shù)λ表示的是在時(shí)間或者空間上面某事件發(fā)生的平均次數(shù)。
?????????2、poisson的方差和均值都是λ。
?????????3、poisson是非對稱的分布,在λ不大時(shí)呈偏態(tài)分布,隨著λ的增大,迅速接近正態(tài)分布。一般來說,當(dāng)λ=20時(shí),可以認(rèn)為近似正態(tài)分布,Poisson分布資料可按正態(tài)分布處理。
????????4、poissson的累計(jì)概率有左側(cè)累計(jì)和右側(cè)累計(jì)。
上圖是關(guān)于λ取到不同的數(shù)值,對應(yīng)的分布圖,可以看出隨著λ增大,越來越接近正太分布,一般在實(shí)際處理的時(shí)候會利用近似正太分布來處理。
二項(xiàng)分布:二項(xiàng)分布是指在一些潛在事件觀測對事件的發(fā)生次數(shù)建模。例如,二項(xiàng)分布可用于采集在臨床研究中死于心臟病的人數(shù)、擁擠電梯中在第二層走出電梯的人數(shù),或是某動物種群中攜帶特定遺傳性狀的動物數(shù)量。
二項(xiàng)分布描述的是發(fā)生次數(shù),而不是量值。它可以對完成比賽的參賽者數(shù)量建模,但不能對參賽者的速度建模。
其中的參數(shù)說明:n代表的是觀測值的數(shù)量;p發(fā)生的概率;x代表的是成功的次數(shù)。
使用二項(xiàng)分布的一個常見例子是,在拋擲硬幣 10 次 (n = 10) 的情況下判斷硬幣正面朝上的次數(shù)概率。可能出現(xiàn)的情況是,10 次中有 0 次正面朝上、10 次中有 1 次正面朝上,以此類推;因此,x = 0、1、2、3、4、5、6、7、8、9、10。p 是每個 x 的概率。
所有試驗(yàn)都是相互獨(dú)立的,并且每個試驗(yàn)只有成功和失敗這兩種結(jié)果。
如果 n 值較大且 p 值較小,則二項(xiàng)分布接近泊松分布。這種情況下使用泊松分布會更加簡便。
二項(xiàng)分布將返回代表 n 次試驗(yàn)中成功次數(shù)的隨機(jī)變量,其中每次試驗(yàn)的成功概率為 p(例如,硬幣正面朝上的概率為 p)。
從二項(xiàng)分布中獲得 :
?期望值: μ=np
?方差: σ2=np(1-p)
2、連續(xù)型隨機(jī)變量的常見分布:
??????(1)、均勻分布
????????(2)、指數(shù)分布
???????(3)、正太分布:它的理論基礎(chǔ)是中心極限定理,該定理的原理是:如果存在大量觀測值,則隨機(jī)變量的總和將呈正態(tài)分布。例如,如果多次拋擲硬幣,則在一連串拋幣動作中硬幣正面朝上的次數(shù)將接近正態(tài)分布。正態(tài)分布的例子包括:某國家的人的身高、某個省的各個高程值以及 12 歲學(xué)生的數(shù)學(xué)考試分?jǐn)?shù)。
??????????
?????
其中參數(shù):μ代表的是平均值
?????????????????σ標(biāo)準(zhǔn)差(正數(shù))正態(tài)分布關(guān)于平均值、眾數(shù)和中值對稱(都在 μ 處相等)。
?
通常二項(xiàng)分布和泊松分布使用數(shù)量較少的觀測值對未來的離散型獨(dú)立隨機(jī)事件(可能發(fā)生,也可能不發(fā)生。例如,拋硬幣時(shí)硬幣正面朝上的次數(shù))建模,而正態(tài)分布則使用大量的觀測值對連續(xù)型變量(例如高度、重量和金額)建模。二項(xiàng)分布和泊松分布以概率為基礎(chǔ),而正態(tài)分布涉及的是達(dá)到某個量或量值的觀測值數(shù)量。
————————————————
總結(jié)
以上是生活随笔為你收集整理的数据挖掘建模之常见概率分布总结的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python评分卡建模-实现WOE编码及
- 下一篇: python评分卡建模-卡方分箱