五分钟了解先验概率和后验概率
五分鐘了解先驗(yàn)概率和后驗(yàn)概率
本文摘自我的公眾號(hào)【車子的心智探索】
歡迎關(guān)注我!
不理解先驗(yàn)概率和后驗(yàn)概率?莫慌,本文可以幫你。
從面積的角度看概率
在說正題之前,咱們從面積的角度認(rèn)識(shí)一下概率。
拿擲骰子來說,每個(gè)點(diǎn)的概率是相等的,因?yàn)榭偢怕适?1,所以每個(gè)點(diǎn)數(shù)的概率是 1/6。我們用格子的大小來表示概率,那么擲骰子的概率圖是這樣的:
如果把擲出的點(diǎn)數(shù)小于等于 4 記作事件 F,問你 P(F) 等于多少,你會(huì)說等于 4/6 = 2/3.
如果用面積圖來算呢?把對(duì)應(yīng)點(diǎn)數(shù)的面積加起來就可以。
四個(gè)方塊的面積之和 = 1/6 * 4 = 2/3
某種可能性消失
我洗好了 52 張撲克牌擺在你面前,撲克牌背面朝上。如果我問你,最上面這張是黑桃的概率是多少?你肯定會(huì)說四分之一。因?yàn)閾淇伺乒灿兴姆N花色,每一種花色的可能性都是相等的。
但是,我趁你不注意的時(shí)候偷看了一眼最上面的牌,然后告訴你這張牌是黑色的。這時(shí)候我再問你,最上面這張是黑桃的概率是多少?
因?yàn)橐呀?jīng)確定花色是黑色,所以紅桃或方塊的可能性不存在了,只有可能是黑桃或梅花,所以,你推測(cè)這張牌是黑桃的概率為二分之一。
畫圖解釋就是:
從面積角度看,整個(gè)過程是這樣的:
當(dāng)?shù)弥ㄉ呛谏臅r(shí)候,表示紅桃和方塊的兩個(gè)方形不見了,只剩下黑桃和梅花,因?yàn)楦怕手涂偸?1,所以把它們各自的面積向上伸展,直到總和為 1。注意,在伸展的同時(shí)要保持黑桃和梅花的面積比例不變,于是結(jié)果就是各占 1/2。
當(dāng)然,也可以更簡單,既然要保持黑桃和梅花的面積比例不變,不妨假設(shè)都伸展 k 倍。
黑桃的面積總面積=14k14k+14k=1414+14=12\frac{黑桃的面積}{總面積}=\frac{\frac{1}{4}k}{\frac{1}{4}k+\frac{1}{4}k}=\frac{\frac{1}{4}}{\frac{1}{4}+\frac{1}{4}}=\frac{1}{2} 總面積黑桃的面積?=41?k+41?k41?k?=41?+41?41??=21?
又因?yàn)榭偯娣e為 1,所以黑桃的面積是 1/2.
好了,進(jìn)入正題。
先驗(yàn)概率與后驗(yàn)概率
看這樣一個(gè)問題:
假設(shè)某種癌癥的患病率為0.1%(0.001)。有一個(gè)簡易的方法能夠檢查出是否患病,但是不能百分之百檢查出——患上這種癌癥的人中有 95%(0.95)的概率被診斷為陽性;另一方面,健康人群也有 2%(0.02)的可能性被誤診為陽性。如果你的檢查結(jié)果是陽性,請(qǐng)問你實(shí)際患上這種癌癥的概率為多少?
這里的患病率就是先驗(yàn)概率。
如果要在檢查前推測(cè)自己是否罹患這種癌癥,概率圖如下。左側(cè)條形的面積是 0.001,右側(cè)矩形的面積是 0.999,分別表示得癌癥的概率和健康的概率。
通過流行病學(xué)數(shù)據(jù)可知,這種癌癥的罹患率為 0.001。也就是說,1000 人中有 1 人罹患這種癌癥。在沒有任何個(gè)人信息的情況下,你屬于圖中左側(cè)世界的概率是 0.001,屬于右側(cè)世界的概率是 0.999。
按照題目信息,可以制作一個(gè)表格。
先看癌癥患者這行,在患癌癥的情況下,檢查結(jié)果呈陽性的概率為 0.95。也就是說,如果你真得了癌癥,能檢查出來的概率為 95%。還有 5% 的概率查不出來。
再看健康者這行,如果你是健康人,那么誤診為陽性的概率為 2%,準(zhǔn)確診斷為陰性的概率是 98%。
所以,檢查存在著誤診的風(fēng)險(xiǎn)。所謂的風(fēng)險(xiǎn)包含以下兩種情況:
在前面那張圖的基礎(chǔ)上,我們可以根據(jù)陽性率和陰性率繼續(xù)分割。
左側(cè)是患癌癥這一類別,把這個(gè)條形按照面積之比 0.95:0.05 來分割 ,那么患癌呈陽性的概率是 0.001*0.95;同理,可以算出其他三部分的概率(面積)。
當(dāng)你做完檢查,肯定屬于以下四種可能性中的一種:
再回到原題,你的檢查結(jié)果呈陽性,于是之前的 4 種情況就變成 2 種了。
同前面撲克牌問題的計(jì)算方法類似,你患癌癥的概率是 0.095% ÷ (0.095% + 1.998%)= 0.045(保留三位小數(shù))。
從這個(gè)結(jié)果可知,在得知陽性這一檢查結(jié)果的情況下,你罹患這種癌癥的概率約為 4.5% ,這便是后驗(yàn)概率。
頻率樹的方法
還有一種方法值得介紹,就是頻率樹。假設(shè)總?cè)丝谑?10 萬人,根據(jù)各種情況,最后可以生成一棵樹。
是不是這種方法更直觀呢?
-----【End】-----
參考資料
小島寬之.(2018).統(tǒng)計(jì)學(xué)關(guān)我什么事:生活中的極簡統(tǒng)計(jì)學(xué).北京時(shí)代華文書局.
總結(jié)
以上是生活随笔為你收集整理的五分钟了解先验概率和后验概率的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: c++计算园的面积与周长
- 下一篇: 指针与堆