可汗学院统计学17-24课笔记
【轉載請注明出處:https://leytton.blog.csdn.net/article/details/103730081】
[第17課] 隨機變量介紹
離散隨機變量(discrete random variable)
在一定區間內變量取值為有限個,如拋硬幣,擲骰子
連續隨機變量(continuous random variable)
在一定區間內變量取值為無限個,如明天下雨的概率,在(0,1)之間
random.randint()與np.random.randint()的區別
random.randint()方法里面的取值區間是前閉后閉區間,而np.random.randint()方法的取值區間是前閉后開區間
[第18課] 隨機變量介紹
摘自《統計學18:隨機變量介紹》,略有修改
概率密度函數
- 隨機變量所有值發生概率和等于1
- 概率密度函數是對連續隨機變量而言的.
比如說明天下雨的概率是0.8,那么不下雨的概率是0.2;
觀察密度函數的圖,面積才是表示密度函數的概率值.而不是x對應y坐標.
假設曲線為f(x),概率是面積,也就是對函數f(x)的積分:
P(0.1<X<0.2)=∫0.10.2f(x)d(x)P(0.1<X<0.2)=\int_{0.1}^{0.2}f(x)d(x)P(0.1<X<0.2)=∫0.10.2?f(x)d(x)
其中 ∫?∞+∞f(x)d(x)=1\int_{-\infty }^{+\infty }{f(x)d(x)}=1∫?∞+∞?f(x)d(x)=1
離散的隨機變量概率
區別于連續隨機變量,離散變量的概率是可以枚舉出來的,如擲骰子,有六個離散變量,每個離散變量的概率都是161\over661?
[第19課] 二項分布1
摘自《統計學19:二項分布1》,略有修改
看一下擲硬幣的問題
擲一次硬幣正面或者反面發生的概率都是12\frac{1}{2}21?
擲五次硬幣或者一次擲五個硬幣(每個硬幣正反獨立的,每次硬幣獨立的,怎么操作都一樣.),記出現正面的數量為XXX.
P(X=0)P(X=0)P(X=0)(出現正面為0次的概率,也就是五次全為反面)?
全為反面只有一種情況,就是第一次投擲為反,第二次為反...
P(X=0)=12×12×12×12×12=132P(X=0)=\frac{1}{2} \times \frac{1}{2} \times \frac{1}{2} \times \frac{1}{2} \times \frac{1}{2}=\frac{1}{32}P(X=0)=21?×21?×21?×21?×21?=321?
P(X=1)P(X=1)P(X=1)(出現正面為1次的概率)?
正面為1次有5種情況,就是第一次投擲為正,其他全為反;第二次為正,其他全為反...
每中情況都是132\frac{1}{32}321?(出現正面的次數和非正面的次數都是12\frac{1}{2}21?)
P(X=1)=5×132=532P(X=1)=5 \times \frac{1}{32} = \frac{5}{32}P(X=1)=5×321?=325?
P(X=2)P(X=2)P(X=2)(出現正面為2次的概率)?
還要枚舉嗎?好像有點累
分析一下:
- 先確定一個正面發生的位置,它有5種(第一次投擲為正,第二次為正...),再確定第二個正面發生的位置,第一個記錄已經占走了一個位置,還有四個位置選一個為正,有4種. 5×45 \times 45×4
- 剛剛我們先確定了,再確定,多做了排序,也就是同樣第二次和第三次為正,但是我們卻在剛剛把它記為了兩種情況(先找到2位再發現3,和先找到3再發現2)我們要排除我們不必要的排序. 5×42\frac{5 \times 4}{2}25×4?
- 每中情況都是132\frac{1}{32}321?
P(X=2)=5×42×132=516P(X=2)=\frac{5 \times 4}{2} \times \frac{1}{32} = \frac{5}{16}P(X=2)=25×4?×321?=165?
P(X=3)P(X=3)P(X=3)?
- 確定第一個(5個位置選1個),第二個(4個位置選1個),第三個(3個位置選1個)5×4×35 \times 4 \times 35×4×3
- 排除不必要的排序(3個的排序為3×23 \times 23×2). 5×4×33×2\frac{5 \times 4 \times 3}{3 \times 2}3×25×4×3?
- 每中情況都是132\frac{1}{32}321?
P(X=3)=5×4×33×2×132=516P(X=3)=\frac{5 \times 4 \times 3}{3 \times 2} \times \frac{1}{32} = \frac{5}{16}P(X=3)=3×25×4×3?×321?=165?
P(X=4)P(X=4)P(X=4)?
- A54=5×4×3×2A_5^4 = 5 \times 4 \times 3 \times 2A54?=5×4×3×2
- A54A44=5×4×3×24×3×2\frac{A_5^4}{A_4^4} = \frac{5 \times 4 \times 3 \times 2}{4 \times 3 \times 2}A44?A54??=4×3×25×4×3×2?
- 132\frac{1}{32}321?
P(X=4)=5×4×3×24×3×2×132=532P(X=4)=\frac{5 \times 4 \times 3 \times 2}{4 \times 3 \times 2} \times \frac{1}{32} = \frac{5}{32}P(X=4)=4×3×25×4×3×2?×321?=325?
P(X=5)P(X=5)P(X=5)?
P(X=5)=C55×132=132P(X=5)=C_5^5 \times \frac{1}{32} = \frac{1}{32}P(X=5)=C55?×321?=321?
也可以把5次為正理解為0次為反,正反概率相等,那么P(X=5)=P(X=0)P(X=5)=P(X=0)P(X=5)=P(X=0)
二項分布就是重復n次獨立的伯努利試驗.
伯努利實驗:在每次試驗中只有兩種可能的結果,而且兩種結果發生與否互相對立,并且相互獨立,與其它各次試驗結果無關,事件發生與否的概率在每一次獨立試驗中都保持不變
[第20課] 二項分布2
摘自《統計學20:二項分布2》,略有修改
隨機變量是一種映射關系.還是以上一節投擲硬幣情況為例
X={0全為反面1有1次為正面2有2次為正面3有3次為正面4有4次為正面5全為正面X= \begin{cases} 0 & \text{全為反面}\\ 1 & \text{有$1$次為正面}\\ 2 & \text{有$2$次為正面}\\ 3 & \text{有$3$次為正面}\\ 4 & \text{有$4$次為正面}\\ 5 & \text{全為正面}\\ \end{cases}X=????????????????????012345?全為反面有1次為正面有2次為正面有3次為正面有4次為正面全為正面?
把上概率整理如下圖表:
如果投擲的次數非常的多,把它們的概率值用曲線描出來,就是一根鐘形曲線.在離散中是二項分布,在連續中它是正態分布.
二項分布是可以被總結出公式的.
還記得上一節我在最后的P(X=5)P(X=5)P(X=5)求解時,把系數(后面是每次獨立發生的概率值)寫了C55C_5^5C55?嗎?
CnmC_n^mCnm?表示從nnn個元素中挑選出mmm個元素(無序)的可能.(也可以理解為從nnn次實驗中發生mmm次同事件的可能)
二項式系數公式
(mn)=Cnm=n!m!(n?m)!(_m^n)=C_n^m = \frac{n!}{m!(n-m)!}(mn?)=Cnm?=m!(n?m)!n!?
也可以繼續上一節那個分析,AnmAmm\frac{A_n^m}{A_m^m}Amm?Anm??記為CnmC_n^mCnm?
其中:
有了二項式系數其實就是從nnn次實驗中發生mmm次同事件的可能種類數,然后它乘一每次事件的概率就是我們求的P(X=m)P(X=m)P(X=m).
那么二項式分布X~B(n,p)X~B(n,p)X~B(n,p)的公式就來了:
P(k,n,p)=P(X=k)=Cnkpk(1?P)n?kP(k,n,p) = P(X=k) = C_n^kp^k(1-P)^{n-k}P(k,n,p)=P(X=k)=Cnk?pk(1?P)n?k
[第21課] 二項分布3
摘自《統計學21:二項分布3》,略有修改
來看上一節留下的公式
P(X=k)=Cnkpk(1?p)n?kP(X=k) = C_n^kp^k(1-p)^{n-k}P(X=k)=Cnk?pk(1?p)n?k
你可能已經明白了二項系數CnkC_n^kCnk?什么意思,這里說一下為什么是概率是pk(1?p)n?kp^k(1-p)^{n-k}pk(1?p)n?k.
可能硬幣事件的兩種結果讓我記住了12\frac{1}{2}21?,那是一個比較特殊的情況.如果把事件轉換為擲篩子呢?它就不再是12\frac{1}{2}21?,12\frac{1}{2}21?.
如果問題轉換為擲篩子,點數為1或者2則甲勝出,點數為3或者4則乙勝出,點數為5或者6則丙勝出,現在尋找在n次實驗中,甲勝出X次的概率?
只關心甲的概率,只需知道是甲贏了,還是輸了,并不關心乙或者丙贏了他.現在就是二項分布了,甲贏(點數為1或2),甲不贏(點數不為1或2,即為3,4,5,6).則事件發生的概率分別為甲贏13\frac{1}{3}31?,甲不贏23\frac{2}{3}32?.
注意二項分布的特點,每次投擲都是獨立的,不受之前實驗的影響,每次結果都是甲贏13\frac{1}{3}31?,甲不贏23\frac{2}{3}32?.
那么求P(X=0)P(X=0)P(X=0),假設投擲了8次:
- 通過上一節我們知道系數C80C_8^0C80?
- 甲贏的次數為0,那么這種可能就是全輸的概率,就是每次概率是23\frac{2}{3}32?,則 P(X=0)=C80×(23)8P(X=0)=C_8^0 \times (\frac{2}{3})^8P(X=0)=C80?×(32?)8
P(X=1)P(X=1)P(X=1):
- 系數C81C_8^1C81?
- 甲贏的次數為1,那么這種可能就是1次為勝,7次為輸的概率.即8次事件中,發生了1次概率是13\frac{1}{3}31?事件和(8?1)(8-1)(8?1)次概率為23\frac{2}{3}32?事件,則P(X=1)=C81×(13)1×(23)8?1P(X=1)=C_8^1 \times (\frac{1}{3})^{1} \times (\frac{2}{3})^{8-1}P(X=1)=C81?×(31?)1×(32?)8?1
P(X=2)P(X=2)P(X=2):
- 系數C82C_8^2C82?
- 發生了2次概率是13\frac{1}{3}31?事件和(8?2)(8-2)(8?2)次概率為1?131-\frac{1}{3}1?31?事件(兩種結果,總的概率為1),則P(X=2)=C82×(13)2×(1?13)8?2P(X=2)=C_8^2 \times (\frac{1}{3})^{2} \times (1-\frac{1}{3})^{8-2}P(X=2)=C82?×(31?)2×(1?31?)8?2
沿著這個方法走下去,就會發現如何去利用公式了.
[第22課] 二項分布4
這一節是介紹用Excel繪制二項分布,詳情請看《統計學22:二項分布4》
[第23課] 期望值E(X)
摘自《統計學23:期望值E(X)》,略有修改
給出一個總體,一組數: 3, 3, 3, 4, 5
它的平均數是: 3+3+3+4+55=185=3.6\frac{3+3+3+4+5}{5}=\frac{18}{5}=3.653+3+3+4+5?=518?=3.6
我們可以換一種方式來看,里面有3個3,1個4,1個5:3(3)+1(4)+1(5)5=35×3+15×4+15×5=60\frac{3(3)+1(4)+1(5)}{5}=\frac{3}{5}×3+\frac{1}{5}×4+\frac{1}{5}×5 = 60%×3+20%×4+20%×553(3)+1(4)+1(5)?=53?×3+51?×4+51?×5=60
頻率
觀察這個式子,60%×3+20%×4+20%×5,這里沒有表示每個數字出現的次數,只是它出現的頻率:
3的頻率是60%,4的頻率是20%,5的頻率是20%.計算是1.8+0.8+1=3.6
知道3,4,5每個數字相對的頻率,也就是占總體額百分比,就可以計算除均值.
[第24課] 二項分布的期望值
摘自《統計學24:二項分布的期望值》,略有修改
假設隨機變量X表示n次實驗的次數,其中每次成功的概率是p.
E(X)=npE(X) = npE(X)=np
在二項分布中,期望值可以看成是最可能得到的那個結果.
假設投籃的命中概率為40%,投10次.
那么E(X)=np=10×40%=4E(X) = np = 10 \times 40\% =4E(X)=np=10×40%=4
可以理解為命中概率為40%,那么投10次,可能4次命中.
回顧二項式概率的公式:
P(X=k)=Cnkpk(1?p)n?kP(X=k) = C_n^kp^k(1-p)^{n-k}P(X=k)=Cnk?pk(1?p)n?k
期望值公式:
E(X)=∑k=0nkP(X=k)=∑k=0nCnkkpk(1?p)n?k=0Cn0p0(1?p)n?0+1Cn1p1(1?p)n?1+…+nCnnpn(1?p)n?n=1Cn1p1(1?p)n?1+…+nCnnpn(1?p)n?n=∑k=1nCnkpk(1?p)n?k\begin{aligned} E(X) &= \sum_{k=0}^nkP(X=k) \\ &=\sum_{k=0}^nC_n^kkp^k(1-p)^{n-k}\\ &=0C_n^0p^0(1-p)^{n-0}+1C_n^1p^1(1-p)^{n-1}+…+nC_n^np^n(1-p)^{n-n}\\ &=1C_n^1p^1(1-p)^{n-1}+…+nC_n^np^n(1-p)^{n-n} \\ &=\sum _{k=1}^nC_n^kp^k(1-p)^{n-k}\\ \end{aligned}E(X)?=k=0∑n?kP(X=k)=k=0∑n?Cnk?kpk(1?p)n?k=0Cn0?p0(1?p)n?0+1Cn1?p1(1?p)n?1+…+nCnn?pn(1?p)n?n=1Cn1?p1(1?p)n?1+…+nCnn?pn(1?p)n?n=k=1∑n?Cnk?pk(1?p)n?k?
代入二項式系數:
Cnk=n!k!(n?k)!C_n^k=\frac{n!}{k!(n-k)!}Cnk?=k!(n?k)!n!?
得到:
E(X)=∑k=1nn!k!(n?k)!kpk(1?p)n?k=∑k=1nn!k(k?1)!(n?k)!kpk(1?p)n?k=∑k=1nn!(k?1)!(n?k)!pk(1?p)n?k=∑k=1nn(n?1)!(k?1)!(n?k)!ppk?1(1?p)n?k=np∑k=1n(n?1)!(k?1)!(n?k)!pk?1(1?p)n?k\begin{aligned} E(X) &=\sum _{k=1}^n \frac{n!}{k!(n-k)!} k p^k(1-p)^{n-k}\\ &=\sum _{k=1}^n \frac{n!}{k(k-1)!(n-k)!} k p^k(1-p)^{n-k}\\ &=\sum _{k=1}^n \frac{n!}{(k-1)!(n-k)!} p^k(1-p)^{n-k}\\ &=\sum _{k=1}^n \frac{n(n-1)!}{(k-1)!(n-k)!} pp^{k-1}(1-p)^{n-k}\\ &=np\sum _{k=1}^n \frac{(n-1)!}{(k-1)!(n-k)!} p^{k-1}(1-p)^{n-k} \end{aligned}E(X)?=k=1∑n?k!(n?k)!n!?kpk(1?p)n?k=k=1∑n?k(k?1)!(n?k)!n!?kpk(1?p)n?k=k=1∑n?(k?1)!(n?k)!n!?pk(1?p)n?k=k=1∑n?(k?1)!(n?k)!n(n?1)!?ppk?1(1?p)n?k=npk=1∑n?(k?1)!(n?k)!(n?1)!?pk?1(1?p)n?k?
令a=k?1,b=n?1a=k-1,b=n-1a=k?1,b=n?1,則 n?k=b?an-k=b-an?k=b?a,得到:
E(X)=np∑a=0b(b)!a!(b?a)!pa(1?p)b?a=np∑a=0bCbapa(1?p)b?a=np\begin{aligned} E(X) &=np\sum _{a=0}^b \frac{(b)!}{a!(b-a)!} p^{a}(1-p)^{b-a}\\ &=np\sum_{a=0}^b C_b^a p^{a}(1-p)^{b-a}\\ &= np \end{aligned}E(X)?=npa=0∑b?a!(b?a)!(b)!?pa(1?p)b?a=npa=0∑b?Cba?pa(1?p)b?a=np?
∑a=0bCbapa(1?p)b?a\sum\limits_{a=0}^b C_b^a p^{a}(1-p)^{b-a}a=0∑b?Cba?pa(1?p)b?a表示一個二項分布的概率和,和應該為1
主要參考資料:
視頻:《可汗學院統計學》
文章:csdn shangboerds 學習筆記
Jent’s Blog 學習筆記(后來發現的,寫得很好,推薦)
總結
以上是生活随笔為你收集整理的可汗学院统计学17-24课笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Camera 面试总结
- 下一篇: NLP原理及基础