【文末有福利】破解逆概率的迷思
1
假設你做了一項體檢,想檢查一下自己是否得了某種病,而體檢結果是陽性的。那么,你有多大可能真的得了這種病?
為了明確表述這一問題,我們假設疾病是乳腺癌,你所做的專項體檢是乳房X光檢測。在這個例子中,前向概率指的是,假設你的確患有乳腺癌,檢測結果為陽性的概率:P(檢測|疾病)。這一概率也就是醫生所說的檢測的“敏感度”(sensitivity),或者說是檢測手段準確探測到某種疾病的能力。一般來說,這個概率對所有類型的患者來說都一樣,因為它只依賴檢測儀器探測到與這種疾病相關的異常生理現象的技術靈敏度。
2
逆概率顯然是我們更關心的概率,在這個例子中,逆概率指的是:假定檢測結果為陽性,檢測者確實得了乳腺癌的概率有多大?也就是P(疾病| 檢測),它表示的是非因果方向的信息流動, 根據檢測結果推斷疾病的概率。這個概率對于不同類型的患者就不一定相同了,因為相比沒有這種疾病家族史的病人而言,有相應疾病家族史的病人如得到了陽性的檢測結果肯定會引起我們更高的警惕。
現在,一位40 歲的女性做了乳房X 光檢查以檢測乳腺癌,其得到的檢測結果為陽性。假設D(代表“疾病”)指她得了癌癥,證據T(代表“檢測”)指乳房X 光檢查的結果。那么,她應該在多大程度上相信這個假設?她應該做手術嗎?
我們可以根據貝葉斯法則改寫之前的方程來回答這些問題:
( D 的更新概率)= P(D | T)=(似然比)×(D 的先驗概率)
3
新術語“似然比”(likelihoodratio)由 P(T | D)/ P(T)給定。它衡量的是,該疾病的患者得到陽性檢測結果的概率比一般群體要高多少。因此,方程3.2 告訴我們的就是,不管先驗概率是多少,新證據T 都會通過一個固定的比率增加D 的概率。
讓我們通過下面這個例子說明“似然比”這個重要的概念的具體含義。對于一個典型的40 歲女性來說,她在下一年患乳腺癌的概率約為1/700, 因此我們就用它作為我們的先驗概率。
為了計算似然比,我們需要知道P(T | D) 和P(T)。在這個例子中, P(T | D)指的是乳房X 光檢查的敏感度,即如果你的確得了癌癥,檢測結果為陽性的概率。根據乳腺癌監測聯合會(BCSC)的數據,對于40 歲的女性來說,乳房X光檢查的敏感度為73%。
分母P(T)的估算略微有些棘手。我們知道,陽性檢測結果T 既可能來自患這種病的檢查者也可能來自沒有患這種病的檢查者。因此,P(T) 應該是P(T | D)(患病者檢測結果為陽性的概率)和P(T | ~D)(未患病者檢測結果為陽性的概率)的加權平均,其中P(T | ~D)一般被稱為假陽性率。根據BCSC的數據,40歲女性做乳房X光檢查的假陽性率約為12%。
為什么我們需要的是加權平均值?因為健康女性(~D)的數量遠多于患乳腺癌的女性(D)。事實上,在700名女性中,平均只有1人患有乳腺癌,另外699人則未患乳腺癌。因此,如隨機選擇1名女性進行檢測,則其得到陽性結果的概率應該更容易受到那699名未患乳腺癌的女性的影響,而更少地受到那一個患乳腺癌的女性的影響。
在數學上,加權平均值的計算如下:
P(T) = (1/700)×(73%)+(699/700)×(12%)≈12.1%
如此進行權重分配的原因是,700名女性中只有1人有73%的可能性得到陽性檢測結果,另外699名則只有12%的可能性得到陽性檢測結果。正如你所預期的,P(T)的值非常接近假陽性率。
現在我們得到了P(T),就可以計算D的更新概率了,也就是女性檢查者得到陽性檢測結果的前提下,其的確患有乳腺癌的可能性。似然比為73%/12.1% ≈ 6。正如我之前所說的,我們可以通過將似然比作為乘數乘以先驗概率,來計算這名女性檢查者患有癌癥的更新概率。對于這名女性檢查者而言,由于其先驗概率是1/700,因此其更新概率是6×1/700≈ 1/116。換言之,在拿到陽性檢測結果的前提下,這名檢查者的確患有癌癥的概率還不到1%。
4
這一結論令人吃驚。我認為,大多數看到她們的乳房X光檢查結果為陽性的40歲女性會驚訝地發現她們其實有很高的概率并沒有患病。圖3.3也許能讓你更容易理解原因所在:假陽性結果的數量要壓倒性地多于真陽性結果的數量。我們對這一結果的驚訝源于對前向概率和逆概率的認知偏差,即認為前者的得出經過了深入研究,支持資料翔實,而后者的得出則多涉及個人的主觀決策。
?
圖3.3 該例中,根據乳腺癌監測聯合會提供的假陽性和假陰性率,在乳腺癌檢測為陽性的363名四十歲女性中,只有3人確實患有乳腺癌。(因四舍五入,該比例與文本的不完全匹配。)(來源:《為什么:關于因果關系的新科學》)
?
P(疾病|測試) 并非對所有人都一樣,它取決于具體情況。如果你知道自己本來就有很高的患病風險,那么貝葉斯法則就可以讓你把這些信息作為影響因子考慮進去。相反,如果你知道自己具有對于某種疾病的免疫能力,那么根據貝葉斯法則,你就根本不必再費心去做檢測了!相比之下,P(檢測|疾病)并不取決于你是否屬于高危群體,對于這類因素,它是“穩健的”,不會隨之發生變化。這也在一定程度上說明了醫生使用前向概率組織知識、與患者溝通的原因。前向概率涉及的是疾病本身的性質、發展階段或檢測儀器的靈敏度,其對患病原因(如流行病、飲食、衛生、社會經濟地位、家庭史)是不敏感的。逆概率P(疾病|檢測)則對這些因素非常敏感。
《為什么:關于因果關系的新科學》
作者:朱迪亞·珀爾,達納·麥肯齊
出版社:中信出版社
長按掃描上方二維碼
查看商品詳情
?
***粉絲福利***?
?評論區留言,點贊數前五可獲得此書,以48個小時計!
?
————
編輯? Gemini
整合自?《為什么:關于因果關系的新科學》
?泰勒定理的奇聞軼事
?丘成桐:漫談微分幾何
?Leibniz 如何想出微積分?(一)
?線性相關和秩的物理意義
?數學史上你認為最丑陋的公式是什么?
?陶哲軒談什么是好的數學
?田淵棟:數學的用處(下篇)
?你絕對沒想過原來數學家這么流氓,一言不合就進行暴力證明
?世界上最牛的五篇博士論文
?數學中有哪些巧合讓人眼前一亮?
?算法立功!清華畢業教授美國被搶車,警察無能為力自己用“貪心算法”找回
?學術史上的奇文:怎樣用數學抓獅子
?臺大教授的反思:最難的一課 我們卻沒教給學生
?麻省理工學院(MIT)研究生學習指導—— 怎樣做研究生
?分享 數學,常識和運氣 ——投資大師詹姆斯·西蒙斯2010年在MIT的講座
算法數學之美微信公眾號歡迎賜稿
稿件涉及數學、物理、算法、計算機、編程等相關領域,經采用我們將奉上稿酬。
投稿郵箱:math_alg@163.com
總結
以上是生活随笔為你收集整理的【文末有福利】破解逆概率的迷思的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 卷积为什么如此强大?理解深度学习中的卷积
- 下一篇: 1900 页数学基础:面向 CS 的线性