先验概率与后验概率、贝叶斯区别与联系
本文假設大家都知道什么叫條件概率了(P(A|B)表示在B事件發生的情況下,A事件發生的概率)。
先驗概率和后驗概率
教科書上的解釋總是太繞了。其實舉個例子大家就明白這兩個東西了。
假設我們出門堵車的可能因素有兩個(就是假設而已,別當真):車輛太多和交通事故。
堵車的概率就是先驗概率?。
那么如果我們出門之前我們聽到新聞說今天路上出了個交通事故,那么我們想算一下堵車的概率,這個就叫做條件概率?。也就是P(堵車|交通事故)。這是有因求果。
如果我們已經出了門,然后遇到了堵車,那么我們想算一下堵車時由交通事故引起的概率有多大,
那這個就叫做后驗概率?(也是條件概率,但是通常習慣這么說) 。也就是P(交通事故|堵車)。這是有果求因。
注意:
不是根據"模樣"來判斷是先驗還是后驗,而是根據該數據能否"直接得到"且不經過"貝葉斯理論"計算才認為是先驗的,也就是說,一個東西是不是先驗,光看P(A|B)這種形式是定不下來的,需要看上下文
下面的定義摘自百度百科:
先驗概率是指根據以往經驗和分析得到的概率,如全概率公式,它往往作為"由因求果"問題中的"因"出現.
后驗概率是指依據得到"結果"信息所計算出的最有可能是那種事件發生,如貝葉斯公式中的,是"執果尋因"問題中的"因".
那么這兩個概念有什么用呢?
最大似然估計
我們來看一個例子。
有一天,有個病人到醫院看病。他告訴醫生說自己頭痛,然后醫生根據自己的經驗判斷出他是感冒了,然后給他開了些藥回去吃。
有人肯定要問了,這個例子看起來跟我們要講的最大似然估計有啥關系啊。
關系可大了,事實上醫生在不知不覺中就用到了最大似然估計(雖然有點牽強,但大家就勉為其難地接受吧^_^)。
怎么說呢?
大家知道,頭痛的原因有很多種啊,比如感冒,中風,腦溢血...(腦殘>_<這個我可不知道會不會頭痛,還有那些看到難題就頭痛的病人也不在討論范圍啊!)。
那么醫生憑什么說那個病人就是感冒呢?哦,醫生說這是我從醫多年的經驗啊。
咱們從概率的角度來研究一下這個問題。
其實醫生的大腦是這么工作的,
他計算了一下
P(感冒|頭痛)(頭痛由感冒引起的概率,下面類似)
P(中風|頭痛)
P(腦溢血|頭痛)
...
然后這個計算機大腦發現,P(感冒|頭痛)是最大的,因此就認為呢,病人是感冒了??吹搅藛?#xff1f;這個就叫最大似然估計(Maximum likelihood estimation,MLE)?。
咱們再思考一下,P(感冒|頭痛),P(中風|頭痛),P(腦溢血|頭痛)是先驗概率還是后驗概率呢?
沒錯,就是后驗概率??吹搅税?#xff0c;后驗概率可以用來看病(只要你算得出來,呵呵)。
事實上,后驗概率起了這樣一個用途,根據一些發生的事實(通常是壞的結果),分析結果產生的最可能的原因,然后才能有針對性地去解決問題。
那么先驗概率有啥用呢?
我們來思考一下,P(腦殘|頭痛)是怎么算的。
P(腦殘|頭痛)=頭痛的人中腦殘的人數/頭痛的人數
頭痛的樣本倒好找,但是頭痛的人中腦殘的人數就不好調查了吧。如果你去問一個頭痛的人你是不是腦殘了,我估計那人會把你一巴掌拍飛吧。也就是說,你沒法獲得P(腦殘|頭痛)
那我如果去問腦殘的人,你現在是否頭痛呢?顯然,這個是出于關心的一種禮貌詢問,想必對方很樂意告訴你。也就是說,很容易可以得到P(頭痛|腦殘)
接下來先驗概率就派上用場了。
根據貝葉斯公式?,
P(B|A)=P(A|B)P(B)/P(A)
我們可以知道
P(腦殘|頭痛)=P(頭痛|腦殘)P(腦殘)/P(頭痛)
注意,P(頭痛|腦殘)是先驗概率,那么利用貝葉斯公式我們就可以利用先驗概率把后驗概率P(腦殘|頭痛)算出來了。
當然也有:
P(頭痛|腦殘)=腦殘的人中頭痛的人數/腦殘的人數
這樣只需要我們去問腦殘的人你頭痛嗎(得到P(頭痛|腦殘)),明顯很安全了。
(你說腦殘的人數怎么來的啊,那我們就假設我們手上有一份傳說中的腦殘名單吧。那位同學不要吵,我沒說你在名單上啊。
再說調查腦殘人數的話咱就沒必要抓著一個頭痛的人問了。起碼問一個心情好的人是否腦殘比問一個頭痛的人安全得多)
| 變量 | 屬于概念 |
| P(腦殘|頭痛) | 后驗概率,屬于條件概率 |
| P(頭痛|腦殘) | 先驗概率,屬于條件概率 |
| P(腦殘) | 先驗概率 |
| P(頭痛) | 先驗概率 |
我承認上面的例子很牽強,不過主要是為了表達一個意思。
實際場景中:
后驗概率P(腦殘|頭痛)在實際中一般是很難直接經過粗暴的統計直接計算出來,相反先驗概率就容易多了。因此一般會利用先驗概率來計算后驗概率。
似然函數與最大似然估計
下面給出似然函數跟最大似然估計的定義。
我們假設f是一個概率密度函數,那么
?$x\mapsto f(x\mid\theta)$(CSDN的公式編輯器喜歡亂升級,所以把markdown公式留在這里)
是一個條件概率密度函數(θ 是固定的)
而反過來,
?$\theta\mapsto f(x\mid\theta)$(CSDN的公式編輯器喜歡亂升級,所以把markdown公式留在這里)
叫做似然函數?(x是固定的)。
一般把似然函數寫成
θ是因變量。
而最大似然估計?就是求在θ的定義域中,當似然函數取得最大值時θ的大小。
意思就是呢,當后驗概率最大時θ的大小。也就是說要求最有可能的原因。
由于對數函數不會改變大小關系,有時候會將似然函數求一下對數,方便計算。
例子:
我們假設有三種硬幣,他們扔到正面的概率分別是1/3,1/2,2/3。我們手上有一個硬幣,但是我們并不知道這是哪一種。因此我們做了一下實驗,我們扔了80次,有49次正面,31次背面。那么這個硬幣最可能是哪種呢?我們動手來算一下。這里θ的定義域是{1/3,1/2,2/3}
當p=2/3時,似然函數的值最大,因此呢,這個硬幣很可能是2/3。
參考資料
http://en.wikipedia.org/wiki/Likelihood_function
http://en.wikipedia.org/wiki/Maximum_Likelihood
總結
以上是生活随笔為你收集整理的先验概率与后验概率、贝叶斯区别与联系的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python中DictVectorize
- 下一篇: 核密度估计Kernel Density