今天开始学模式识别与机器学习Pattern Recognition and Machine Learning (PRML)书,章节1.2,Probability Theory (上)
Pattern Recognition and Machine Learning (PRML)書,章節(jié)1.2,Probability Theory (上)
這一節(jié)是濃縮了整本書關(guān)于概率論的精華,突出一個不確定性(uncertainty)的理解。我看的比較慢,是想要細(xì)扣一下,而且寫blog碼字也很慢,不過我想留下點(diǎn)痕跡所以會寫下去。前面幾節(jié)其實(shí)很重要,所以單獨(dú)一節(jié)甚至半節(jié)寫一個blog,后面如果一個章節(jié)在討論一個topic我可能就會一個章節(jié)一個blog,比如第九章講EM算法,我應(yīng)該就用一個blog帶過。
(入門而已,高手一笑而過吧~。~)
對于書中的公式如果重要我都會推導(dǎo)一下,然后用黃色表示一下,以后的章節(jié)也是如此。如果大家也看PRML書建議也自己推幾個公式,加深理解。如果出現(xiàn)“注”,就是我自己加的描述。
?
首先從一個例子說起:有兩個盒子,一個紅色盒子里面有2個蘋果(綠)+6個桔子(黃),一個藍(lán)色盒子里面有3個蘋果+1個桔子,具體可以見圖1.9。隨機(jī)挑選一個盒子,然后從盒子里隨機(jī)拿出一個水果,觀察是什么后放回原處,重復(fù)這個過程很多次。
我們定義挑選紅色盒子的次數(shù)為總次數(shù)的40%,挑選藍(lán)色盒子的次數(shù)為60%。
在這個例子中,盒子的顏色是一個隨機(jī)變量,我們稱之為B,它有兩個取值r(red)和b(blue);水果也是一個隨機(jī)變量,稱之為F,它的取值是a(apple)和o(orange)。
首先從頻次的角度理解概率,選擇紅/藍(lán)盒子的概率分別為:
注:概率必須在[0,1]范圍內(nèi),且覆蓋所有可能的互斥事件的概率和為1。
?
我們現(xiàn)在可以問類似這樣的問題:(1)一次挑選得到蘋果的概率是多少?(2)如果我們得到的是桔子,那么這一次挑選的是紅盒子的概率是多少?
?
?
=============================================華麗的分割線==========================================================
在解決上述問題前我們先跳出這個例子,來考慮更一般的情況:見圖1.10
?
對兩個隨機(jī)變量的大量重復(fù)實(shí)驗(yàn),把得到(xi, yi)的結(jié)果次數(shù)記錄到n_ij中,圖中一列之和表示為ci(表示所有出現(xiàn)xi的總次數(shù)),一行之和為rj,為出現(xiàn)yj的總次數(shù)。得到X=xi和Y=yi的聯(lián)合概率:
?
以及X=xi的邊緣概率:
?
還可以得到條件概率,給定xi得到y(tǒng)j的概率:
通過以上推導(dǎo),我們可以得到下面的關(guān)系:
?
上面的(1.7)式子叫做加法規(guī)則sum rule,(1.9)叫做乘法規(guī)則product rule, 是概率論中最基本的兩個規(guī)則了:
注:這兩個rule幾乎是最重要的方法了。
通過這兩個規(guī)則可以得到在機(jī)器學(xué)習(xí)中非常重要的貝葉斯理論:
其中P(X)可以對所有的Y展開:
可以理解為normalization,使得(1.12)左邊的條件概率在所有的Y取值下,概率之和為1。
?
=============================================華麗的分割線============================================================
?
?
好了,現(xiàn)在跳回到前面的兩個盒子的例子,(在下面的書寫中我們會強(qiáng)調(diào)一下隨機(jī)變量(大寫字母)以及它們的實(shí)例(小寫字母),后面可能就會寫的簡略一些)
這幾個概率表達(dá)式都是直接得到的,題目中給了,比如第三條:盒子為紅色情況下,抽到水果為蘋果的概率為1/4。 且滿足,即同一條件下所有可能性之和為1。OK, 現(xiàn)在我們可以回答“抽到蘋果的概率”這個問題了:
即窮舉所有盒子的可能,以及每一種盒子下抽到蘋果的概率之和。對應(yīng)的,抽到桔子的概率就是p(F=o) = 1- 11/20 = 9/20。
好,現(xiàn)在回答第二個問題:如果我們得到的是桔子,那么這一次挑選的是紅盒子的概率是多少?
通過貝葉斯公式:
答案通過貝葉斯公式很容易得到,而我們所需的信息都可以從前面的基本信息中得到。在這個例子中,我們已經(jīng)設(shè)計(jì)到很多概念,比如對盒子的選取有一個預(yù)估,也就是P(B),我們稱之為先驗(yàn)概率,因?yàn)樗窃谖覀冇^測抽取結(jié)果之前就已知了的(決定了的);
然后我們的第二個問題,已知抽到是桔子的情況下求盒子紅色的概率,其實(shí)就是估計(jì)盒子為紅色的后驗(yàn)概率,因?yàn)槭窃谖覀冇^察到隨機(jī)變量F之后得到的估計(jì)。由此可見當(dāng)我們有一定的觀察值的時候我們就不能從直觀的理解去判斷一個事件,比如先驗(yàn)告訴我們說有60%的可能是選取藍(lán)盒子,但式子是(1.23)說明在有觀察o的情況下,紅盒子的概率有2/3,比藍(lán)盒子大多了。
還要介紹一下兩個隨機(jī)變量的邊緣分布的乘積等于他們的聯(lián)合分布,即p(X,Y) = p(X)P(Y),那么這兩個隨機(jī)變量相互獨(dú)立,也有p(Y|X) = p(Y)。
?
?
1.2.1?概率密度
前面介紹都是從離散變量的角度,我們需要重新考慮連續(xù)變量的概率定義。
如果一個實(shí)數(shù)連續(xù)變量,其落在區(qū)間的概率是,當(dāng)時,那么小p(x)就稱之為x的概率密度。概率定義成:
注:這里都用小p來表示容易混淆,前面的p是代表概率,后面p(x)是概率密度。
(連續(xù)變量就沒有x為某一具體值的概率定義了,因?yàn)橛袩o窮的取值,都是說落在一個區(qū)段內(nèi)的概率)
累計(jì)分布函數(shù)(cumulative distribution)的定義是x處在區(qū)間的概率:
滿足P’(x) = p(x)。在圖1.12中我們繪制了概率密度小p和累計(jì)分布函數(shù)大P,綠色的面積是落在小區(qū)間內(nèi)的概率。
前面討論過的sum rule 和product rule在連續(xù)變量情況下也適用:
?
?
?
?
1.2.2?期望和方差
期望:一個函數(shù)f(x) 在一個概率分布p(x)下的平均取值就是f(x)的期望,定義為:
對于離散情況而言,期望就是一個所有可能值的加權(quán)和。對于連續(xù)變量就用對應(yīng)的積分形式:
注:這里兩個小p有不同,上面在離散情況下已經(jīng)是理解成概率了,而下面(1.34)中小p是概率密度。
對期望的一種直觀估計(jì)是所有觀察點(diǎn)的平均:
當(dāng)N趨于無窮大時,取等號。這樣的平均值我們是經(jīng)常用到的。
如果f有多個變量,我們一般會用下標(biāo)來表示是針對哪一個變量的分布(變化)考慮的,比如
就是說f的關(guān)于變量x的期望,事實(shí)上,上式是一個以y為變量的函數(shù)。類似的,我們也可用定義條件期望:
方差:方差可以估計(jì)一個函數(shù)f在他的期望附近變化的劇烈程度,定義為
如果考慮變量x本身,也可用x的方差:
注:(書里跳過了)這個等式實(shí)際上是從方差的定義推導(dǎo)出來的:
?
另外,對于兩個隨機(jī)變量我們定義協(xié)方差:
表示x,y一起變化的程度,如果x和y相互獨(dú)立,那么協(xié)方差為0。可以看到單個變量的方差是協(xié)方差的特殊情況,x=y。
如果x和y表示的是兩個向量(vector)變量,x和y是列向量,那么協(xié)方差是一個矩陣:
?
好了,期望和方差介紹到這里,這兩個概念幾乎貫穿機(jī)器學(xué)習(xí)的所有領(lǐng)域。今天先記錄這一些吧,章節(jié)1.2確實(shí)很重要,這里只是上半部分,下半部分過幾天整理了再放出吧。
?
吐槽一下,寫了這么幾頁就花了2小時+(動作太慢?),主要是語句都是經(jīng)過梳理的,雖然公式和圖表都是copy的,但是依然要花不少時間,記下來我自己加深下印象也是有好處。
1.2的下半部分包括了貝葉斯定理和高斯分布的介紹,非常重要。基本上章節(jié)1.2組成了概率統(tǒng)計(jì)學(xué)習(xí)的基礎(chǔ)內(nèi)容,建議初學(xué)者好好理解下。
總結(jié)
以上是生活随笔為你收集整理的今天开始学模式识别与机器学习Pattern Recognition and Machine Learning (PRML)书,章节1.2,Probability Theory (上)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 今天开始学模式识别与机器学习Patter
- 下一篇: 今天开始学模式识别与机器学习Patter