几个简单数学分布
1. 概率密度函數
假如我們要預測明天的下雨量,x表示下雨的量,f(x)就表示為概率密度,我們隨便畫一個概率密度,他們的關系如下:
其中概率密度函數f(x)并不代表概率,只是代表當前x點的概率密度,類似于速度不代表位移一樣,我們把所有可能發生事件概率相加應該為1(上圖面積):
∫+∞?∞f(x)dx=1
其中f(x)>=0,也可以計算下雨量在某個范圍內的概率:
P(a<x<b)=∫abf(x)dx=1
積分后的概率即成為概率分布。
2. 二項分布
拋硬幣是典型的二線分布,假設我們拋了5次硬幣,設定P(x)表示有x次硬幣正面朝上的話,我們可以得到一個類似如下的概率分布:
其中x為正面朝上的次數,離散變量和連續變量的差別可以看下面的泊松分布。
3. 泊松分布
泊松分布是二項分布的極限情況。
假設我們現在要估計某個路口一小時經過k輛車的概率,第一步我們需要先大量的觀察一段時間,獲得一個一小時內通過汽車數量的期望λ。
然后我們把一小時分為60分鐘,同時假設每一分鐘要么經過一輛車,要么沒有車,那么按照二項分布的式子:
P(k)=Ck60(λ60)k(1?λ60)60?k
也就是說,期望除以60分鐘(把一小時分成60份)獲得每一分鐘有一輛車經過的概率。
但是很明顯我們不能確保每分鐘真的只過一輛,為了更加精確,我們可以把一小時繼續分為3600秒或72000個半秒,也就是說分的越多份,越精確。如果我們這么一直分下去,我們就獲得了泊松分布,也就是二項分布的極限情況。
如果引入極限和e,泊松分布可以表達為(參考這里):
P(X=k)=e?λλkk!
泊松分布的概率密度和累計概率圖像如下:?
4. 正態分布
跟泊松分布一樣,正態分布其實也是在大量觀察現實世界的接觸上總結推理出來的,它的概率密度函數為:
f(x)=12π??√σe?(x?μ)22σ2圖像類似:
其中μ為觀察到的數據的均值,是期望的一種估計方式,類似上面泊松分布估計用的期望,在圖上表示為中心點的位置。
σ是樣本的標準差,在圖上可以表現為向中央的緊縮程度。
正態分布的特點是大自然中很多事件都符合它的描述,比如20歲男子的身高、同一個學校里學生的成績分布等等。
正態分布還有一個有趣的特點是:
正態分布可以通過調整其兩個參數能夠擬合很多自然界的情況,也可以和其他分布在某些情況下互相轉換。
5. Gamma分布
正態分布的特點是左右對稱,這個世界也有很多不符合這種分布的情況,比如某個事件的熱度,可能會先迅速上升,然后緩慢降低熱度,還有發射火箭的速度等等。
Gamma分布的概率密度函數為:
其中α為形狀參數,表示分布的形狀,β為尺度參數,表示左右兩邊的對稱情況,數值越大越對稱,無限大時區域正態分布。
下圖中k=α,θ=β:
數據的期望可以表示為:E(X)=α/β,?D(X)=β/(α2)
從物理意義上說,Gamma分布表示第α件事情發生時所需等待的時間. b表示某事件發生需要的時間
Gamma(a,b)表示第α件事情發生時所需等待的時間
讓我們先通過一個例子,了解什么是"泊松分布"。
已知某家小雜貨店,平均每周售出2個水果罐頭。請問該店水果罐頭的最佳庫存量是多少?
假定不存在季節因素,可以近似認為,這個問題滿足以下三個條件:
(1)顧客購買水果罐頭是小概率事件。
(2)購買水果罐頭的顧客是獨立的,不會互相影響。
(3)顧客購買水果罐頭的概率是穩定的。
在統計學上,只要某類事件滿足上面三個條件,它就服從"泊松分布"。
泊松分布的公式如下:
各個參數的含義:
P:每周銷售k個罐頭的概率。
X:水果罐頭的銷售變量。
k:X的取值(0,1,2,3...)。
λ:每周水果罐頭的平均銷售量,是一個常數,本題為2。
根據公式,計算得到每周銷量的分布:
從上表可見,如果存貨4個罐頭,95%的概率不會缺貨(平均每19周發生一次);如果存貨5個罐頭,98%的概率不會缺貨(平均59周發生一次)。
http://www.ruanyifeng.com/blog/2013/01/poisson_distribution.html http://sobuhu.com/math/2013/06/17/distributions.html
需要注意的是概率密度函數和概率的關系
密度這個概念的理解的確不那么簡單 事實上,對于連續型隨機變量,例如X服從正態分布, 那么X在每一點的概率都是0,但是X在一個區間內的概率卻不是0 這不難理解,就像一根質量分布不均勻的鋼筆,鋼筆在每個點上的質量都是0, 但是鋼筆在一個小塊兒內的質量卻不是0對于這種隨機變量X怎么研究呢?很簡單! 設dx是一個非常小的正數,因為任何函數在一個很小的區間上都可以近似看成線性的,那 么X處于(x,x+dx)內的概率一定可以近似表示成f(x)dx的形式 這里的f(x)就叫做X的概率密度不止是概率密度,物理上的各種密度的原理都是這樣的你可能會問,為什么X在每一點的概率都是0,但是X在一個區間內的概率卻不是0? 這是因為概率論的公理體系只能保證可列個概率為0的事件的并還是概率為0的 然而一個區間包含不可列個點!因此盡管這些點的概率都是0, 它們的并,也就是這個區間的概率卻可以不是0 對于離散型的概率密度函數,取一個x值,獲得的就是取x時的概率
對于連續性的,必須是要取一個區間的,概率才有意義
3. 伯努利、二項分布、多項分布
伯努利分布就是對單次拋硬幣的建模,X~Bernoulli(p)的PDF為f(x)=px(1?p)1?x,隨機變量X只能取{0, 1}。對于所有的pdf,都要歸一化!而這里對于伯努利分布,已經天然歸一化了,因此歸一化參數就是1。
很多次拋硬幣的建模就是二項分布了。注意二項分布有兩個參數,n和p,要考慮拋的次數。
二項分布的取值X一般是出現正面的次數,其PDF為:
Cxn就是二項分布pdf的歸一化參數。如果是beta分布,把Cxn換成beta函數分之一即可,這樣可以從整數情況推廣為實數情況。所以beta分布是二項分布的實數推廣!
多項分布則更進一層,拋硬幣時X只能有兩種取值,當X有多種取值時,就應該用多項分布建模。
這時參數p變成了一個向量p??=(p1,…,pk)表示每一個取值被選中的概率,那么X~Multinomial(n,p)的PDF為:
二項式分布是拋多次硬幣,出現n次正面的概率,其概率密度函數圖,就是直方圖
多項式分布就是拋一個多面體,每個面朝上的概率為pi, 所以p1+p2+...+pk=1, 拋一次的結果是(x11,x12,x13,...,x1k)注意只有一個x1i=1,其他都為0
那么拋n次多面體,就是多項式分布,其中xi表示i面朝上一共出現了xi次
總結
- 上一篇: observer pattern
- 下一篇: 二项分布和Beta分布