【概率论】5-2:伯努利和二项分布(The Bernoulli and Binomial Distributions)
原文地址1:https://www.face2ai.com/Math-Probability-5-2-the-Bernoulli-and-Binomial-Distributions轉載請標明出處
Abstract: 本文介紹Bernoulli Distribution (伯努利分布)和Binomial Distribution(二項分布)
Keywords: Bernoulli Distributions,Binomial Distributions
伯努利和二項分布
吐血更,一天三篇,雖然上一篇只能算一段,但是確實應該加快總結的步伐了,給后面的新內容騰出足夠的時間
一杯敬自由,一杯敬死亡
在本章的開始,我們從離散分布下手,看看每個分布有這什么樣的特點,然后用我們的工具分析研究其內在的性質,當然要從最簡單的開始,逐步構建出我們要研究的有代表性的這些分布,第一個被處理的就是伯努利分布(bernoulli Distribution)
隨機變量 XXX 只有兩個取值,0或者1,并且取1的概率固定是ppp 那么我們就說 XXX 有一個參數為 ppp 的伯努利分布。如果我們只知道試驗輸出對應的隨機變量只有兩個結果,非此即彼,那么這個隨機變量的分布就是伯努利族中的一個隨機變量。
如果隨機變量 X1,X2,…,XnX_1,X_2,\dots,X_nX1?,X2?,…,Xn? 有相同的伯努利分布,他們的和就是其中為1的隨機變量的個數,這個個數也是隨機的,其對應的分布為二項分布。
伯努利分布 The Bernoulli Distributions
上來先來個例子:
臨床試驗,對于某種治療,我們簡單的把結果劃分成兩種,一種有效,一種無效,我們用隨機變量來表示這兩個結果,X=1X=1X=1 表示治療有效 X=0X=0X=0 表示治療無效,那么我們要做的是得到這個概率就是 Pr(X=1)=pPr(X=1)=pPr(X=1)=p 的值就是我們關心的結果。ppp 的取值范圍在 [0,1][0,1][0,1] 對應于不同的 ppp 我們就有了伯努利分布族。
Definition Bernoulli Distribution.A random variable X has the Bernoulli distribution with parameter ppp ( 0≤p≤10\leq p\leq 10≤p≤1 )if X can take only the values 0 and 1 and the probabilities are
Pr(X=1)=pPr(X=1)=p Pr(X=1)=p
and
Pr(X=0)=1?pPr(X=0)=1-p Pr(X=0)=1?p
其概率函數可以被寫成:
f(x∣p)={px(1?p)1?xfor?x=0,10otherwisef(x|p)= \begin{cases} p^x(1-p)^{1-x}&\text{ for }x=0,1\\ 0&\text{otherwise} \end{cases} f(x∣p)={px(1?p)1?x0??for?x=0,1otherwise?
p.f.的表示方法可以看出伯努利分布是依賴于參數 ppp 的,所以 ppp 可以看成一個條件,那么我們后面所有類似的分布都可以將其p.f.或者p.d.f.寫成這種形式。
c.d.f.(似乎我們學c.d.f的時候已經講過了)可以被寫成:
F(x∣p)={0for?x<01?pfor?0<x<11for?x≥1F(x|p)= \begin{cases} 0&\text{ for }x<0 \\ 1-p&\text{ for }0 < x < 1 \\ 1&\text{ for }x\geq 1 \end{cases} F(x∣p)=??????01?p1??for?x<0?for?0<x<1?for?x≥1?
期望 Expectation
當我們研究完其p.f.和c.d.f.以后就研究研究他的期望吧,也沒啥可研究的了,隨機變量 XXX 有參數為 ppp 的伯努利分布,那么其期望:
E(X)=p×1+0×(1?p)=pE(X)=p\times1 + 0\times(1-p)=p E(X)=p×1+0×(1?p)=p
然后我們研究一下隨機變量 X2X^2X2 的概率分布
E(X2)=p×12+(1?p)×02=pE(X^2)=p\times1^2 + (1-p)\times0^2=p E(X2)=p×12+(1?p)×02=p
方差 Variance
期望完了當然是方差了,同樣是隨機變量 XXX 有參數為 ppp 的伯努利分布,那么其方差:
Var(X)=E[(X?E(X))2]=(1?p)2p+(?p)2(1?p)=p(1?p)(1?p+p)=p(1?p)Var(X)=E[(X-E(X))^2]=(1-p)^2p+(-p)^2(1-p)=p(1-p)(1-p+p)=p(1-p) Var(X)=E[(X?E(X))2]=(1?p)2p+(?p)2(1?p)=p(1?p)(1?p+p)=p(1?p)
或者通過更簡單的公式:
Var(X)=E[X2]?E2[X]=p?p2=p(1?p)Var(X)=E[X^2]-E^2[X]=p-p^2=p(1-p) Var(X)=E[X2]?E2[X]=p?p2=p(1?p)
結果一致。
距生成函數 m.g.f.
我們說過除了p.d.f./p.f.和c.d.f.,m.g.f.也是非常重要的分布標書工具,所以伯努利分布自然也有m.g.f.
ψ(t)=E[etX]=p(et×1)+(1?p)(et×0)for??∞<t<∞\begin {aligned} \psi(t)=E[e^{tX}]=p(e^{t\times 1})+(1-p)(e^{t\times 0}) &\text{ for } -\infty<t<\infty \end {aligned} ψ(t)=E[etX]=p(et×1)+(1?p)(et×0)??for??∞<t<∞?
這個寫起來應該沒啥難度,注意好 XXX 就行,然后就是期望對應的概率值。
伯努利過程 Bernoulli Trials/Process
說到序列我就想起了數學分析,Tao的分析我們已經開始更新了,但是我想把概率基礎部分先寫完,然后一邊研究數理統計一邊寫分析的博客,想到分析的原因是我看到了序列
如果一個序列不論是否有限,每一個元素都是獨立同分布的(i.i.d.)的伯努利隨機變量,那么我們就叫他們伯努利序列或者伯努利過程。
Definition Bernoulli Trails/Process.If the random variables in a finite or infinite sequence X1,X2,…X_1,X_2,\dotsX1?,X2?,… and i.i.d.,and if each random variable XiX_iXi? has the Bernoulli distribution with parameter p,then it is said that X1,X2,…X_1,X_2,\dotsX1?,X2?,… are Bernoulli trials with parameter ppp .An infinite sequence of Bernoulli trials is also called a Bernoulli Process.
伯努利過程的例子最簡單的就是連續丟同一枚硬幣,組成的結果正反,就組成了伯努利過程。
二項分布 The Binomial Distributions
舉個例子,這個例子和上面伯努利過程有關,連續生產一批零件,每個零件有一定的合格率,,所有零件組成的序列是一個伯努利過程,那么么我們想知道這些隨機變量的和滿足怎么樣的分布。
Definition Binomial Distribution.A random variable XXX has the binomial distribution with parameters nnn and ppp if XXX has a discrete distribution for which the p.f. is as follow:
f(x∣n,p)={(nx)px(1?p)n?xfor?x=0,1,…0otherwisef(x|n,p)= \begin{cases} \begin{pmatrix}n\\x\end{pmatrix} p^x(1-p)^{n-x }&\text{ for }x=0,1,\dots\\ 0&\text{otherwise} \end{cases} f(x∣n,p)=????(nx?)px(1?p)n?x0??for?x=0,1,…otherwise?
in this distribution ,nnn must be a positive integer, and ppp must lie in the interval 0≤p≤10\leq p\leq 10≤p≤1
這個定義確實是以定義的語言風格來寫的,直接明了的告訴你,什么東西,叫什么名字,來源出處并不是定義要闡述的,但是我們要從理論上分析為啥這就是二項分布了呢?二項分布首先是因為這個分布產生系數和二項式系數一致,而且中有兩個項,而其來源是多個獨立同分布的伯努利分布隨機變量求和結果。
注意:二項分布是概率論和數理統計的重要基礎!
Theorem If the random varibales X1,…,XnX_1,\dots,X_nX1?,…,Xn? from nnn Bernoulli trials with parameter ppp ,and if X=X1+?+XnX=X_1+\dots+X_nX=X1?+?+Xn? ,then XXX has the binomial distribution with parameters nnn and ppp
這個定理的證明用到的是前面計數方法以及乘法法則,加法法則,也就是 nnn 個樣本中每一個都有 ppp 的概率是1,其余是0,總和是 xxx 的組合方法共有 (nx)\begin{pmatrix}n\\x\end{pmatrix}(nx?) 種,所以把這些種概率 px(1?p)n?xp^x(1-p)^{n-x }px(1?p)n?x 相加就得到了結果,被定義為二項分布。
根據上面這條定理,我們可以很輕松的計算二項分布的數字特征了。終于知道學習那些數字特征的計算法則的用途了,下面將會非常簡單。
期望 Expectation
隨機變量 XXX 是一個參數為 nnn 和 ppp 的二項分布,那么其期望是:
E(X)=∑i=0nE(Xi)=npE(X)=\sum^{n}_{i=0}E(X_i)=np E(X)=i=0∑n?E(Xi?)=np
用到的法則:
方差 Variance
隨機變量 XXX 是一個參數為 nnn 和 ppp 的二項分布,那么其方差是:
Var(X)=∑i=1n=np(1?p)Var(X)=\sum^{n}_{i=1}=np(1-p) Var(X)=i=1∑n?=np(1?p)
用到的法則:
如果使用別的方法求方差會非常麻煩,比如定義或者 Var(X)=E[X2]?E2[X]Var(X)=E[X^2]-E^2[X]Var(X)=E[X2]?E2[X] 別問我怎么知道的。
距生成函數 m.g.f.
隨機變量 XXX 是一個參數為 nnn 和 ppp 的二項分布,那么其距生成函數是:
ψ(t)=E(etX)=Πi=1nE(etXi)=(pet+1?p)n\psi(t)=E(e^{tX})=\Pi^{n}_{i=1}E(e^{tX_i})=(pe^t+1-p)^n ψ(t)=E(etX)=Πi=1n?E(etXi?)=(pet+1?p)n
用到的法則:
二項分布隨機變量相加
Theorem If X1,…,XnX_1,\dots,X_nX1?,…,Xn? are independent random varibales,and if XiX_iXi? has the binomial distribution with parameters nin_ini? and ppp ( i=1,…,ki=1,\dots,ki=1,…,k ) ,then the sum X1+?+XkX_1+\dots+X_kX1?+?+Xk? has the binomial distribution with parameters n=n1+?+nkn=n_1+\dots+n_kn=n1?+?+nk? and ppp .
當多個二項分布有不同的 nnn 但是有相同的 ppp 那么他們可以相加,nnn 是所有 nnn 的和, ppp 不變,這個可以根據將二項分布打散成伯努利分布然后再加起來可以看出來定理是正確的
那么什么時候可以使用上述定理呢?
這兩點有任何一點不成立,上面的定理都不成立。
書上接著給了個大長例子,講的是血液檢驗,還有到了二分查找法,可以看看
總結
本文介紹伯努利分布和二項分布,分析了其對應數字特征,和m.g.f下一篇我們繼續研究分布——超幾何分布。
待續。。。
總結
以上是生活随笔為你收集整理的【概率论】5-2:伯努利和二项分布(The Bernoulli and Binomial Distributions)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: OpenGL初学者入门——学习指南【共
- 下一篇: 固态硬盘架构