贝叶斯决策思想的应用与延伸
生活随笔
收集整理的這篇文章主要介紹了
贝叶斯决策思想的应用与延伸
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1.貝葉斯的應用
以下舉一些實際例子來說明貝葉斯方法被運用的普遍性,這里主要集中在機器學習方面,因為我不是學經濟的,否則還可以找到一堆經濟學的例子。1.1 中文分詞
貝葉斯是機器學習的核心方法之一。比如中文分詞領域就用到了貝葉斯。Google 研究員吳軍在《數學之美》系列中就有一篇是介紹中文分詞的,這里只介紹一下核心的思想,不做贅述,詳細請參考吳軍的文章。分詞問題的描述為:給定一個句子(字串),如:南京市長江大橋
如何對這個句子進行分詞(詞串)才是最靠譜的。例如:
1. 南京市/長江大橋
2. 南京/市長/江大橋
這兩個分詞,到底哪個更靠譜呢?
我們用貝葉斯公式來形式化地描述這個問題,令 X 為字串(句子),Y 為詞串(一種特定的分詞假設)。我們就是需要尋找使得 P(Y|X) 最大的 Y ,使用一次貝葉斯可得:
P(Y|X) ∝ P(Y)*P(X|Y)
用自然語言來說就是 這種分詞方式(詞串)的可能性 乘以這個詞串生成我們的句子的可能性。我們進一步容易看到:可以近似地將 P(X|Y) 看作是恒等于 1 的,因為任意假想的一種分詞方式之下生成我們的句子總是精準地生成的(只需把分詞之間的分界符號扔掉即可)。于是,我們就變成了去最大化 P(Y) ,也就是尋找一種分詞使得這個詞串(句子)的概率最大化。而如何計算一個詞串:W1, W2, W3, W4 .. 的可能性呢? 我們知道,根據聯合概率的公式展開:P(W1, W2, W3, W4 ..) = P(W1) * P(W2|W1) * P(W3|W2, W1) * P(W4|W1,W2,W3) * .. 于是我們可以通過一系列的條件概率(右式)的乘積來求整個聯合概率。然而不幸的是隨著條件數目的增加(P(Wn|Wn-1,Wn-2,..,W1) 的條件有 n-1 個),數據稀疏問題也會越來越嚴重,即便語料庫再大也無法統計出一個靠譜的 P(Wn|Wn-1,Wn-2,..,W1) 來。 為了緩解這個問題,計算機科學家們一如既往地使用了“天真”假設:我們假設句子中一個詞的出現概率只依賴于它前面的有限的 k 個詞(k 一般不超過 3,如果只依賴于前面的一個詞,就是2元語言模型(2-gram),同理有 3-gram 、 4-gram 等),這個就是所謂的“有限地平線”假設。雖然這個假設很傻很天真,但結果卻表明它的結果往往是很好很強大的,后面要提到的樸素貝葉斯方法使用的假設跟這個精神上是完全一致的,我們會解釋為什么像這樣一個天真的假設能夠得到強大的結果。目前我們只要知道,有了這個假設,剛才那個乘積就可以改寫成: P(W1) * P(W2|W1) * P(W3|W2) * P(W4|W3) .. (假設每個詞只依賴于它前面的一個詞)。而統計 P(W2|W1) 就不再受到數據稀疏問題的困擾了。對于我們上面提到的例子“南京市長江大橋”,如果按照自左到右的貪婪方法分詞的話,結果就成了“南京市長/江大橋”。但如果按照貝葉斯分詞的話(假設使用 3-gram),由于“南京市長”和“江大橋”在語料庫中一起出現的頻率為 0 ,這個整句的概率便會被判定為 0 。 從而使得“南京市/長江大橋”這一分詞方式勝出。
1.2 貝葉斯圖像識別
貝葉斯方法是一個非常 general 的推理框架。其核心理念可以描述成:Analysis by Synthesis (通過合成來分析)。06 年的認知科學新進展上有一篇 paper 就是講用貝葉斯推理來解釋視覺識別的,一圖勝千言,下圖就是摘自這篇 paper :首先是視覺系統提取圖形的邊角特征,然后使用這些特征自底向上地激活高層的抽象概念(比如是 E 還是 F 還是等號),然后使用一個自頂向下的驗證來比較到底哪個概念最佳地解釋了觀察到的圖像。
1.3?EM 算法與基于模型的聚類
聚類是一種無指導的機器學習問題,問題描述:給你一堆數據點,讓你將它們最靠譜地分成一堆一堆的。聚類算法很多,不同的算法適應于不同的問題,這里僅介紹一個基于模型的聚類,該聚類算法對數據點的假設是,這些數據點分別是圍繞 K 個核心的 K 個正態分布源所隨機生成的,使用 Han JiaWei 的《Data Ming: Concepts and Techniques》中的圖:圖中有兩個正態分布核心,生成了大致兩堆點。我們的聚類算法就是需要根據給出來的那些點,算出這兩個正態分布的核心在什么位置,以及分布的參數是多少。這很明顯又是一個貝葉斯問題,但這次不同的是,答案是連續的且有無窮多種可能性,更糟的是,只有當我們知道了哪些點屬于同一個正態分布圈的時候才能夠對這個分布的參數作出靠譜的預測,現在兩堆點混在一塊我們又不知道哪些點屬于第一個正態分布,哪些屬于第二個。反過來,只有當我們對分布的參數作出了靠譜的預測時候,才能知道到底哪些點屬于第一個分布,那些點屬于第二個分布。這就成了一個先有雞還是先有蛋的問題了。為了解決這個循環依賴,總有一方要先打破僵局,說,不管了,我先隨便整一個值出來,看你怎么變,然后我再根據你的變化調整我的變化,然后如此迭代著不斷互相推導,最終收斂到一個解。這就是 EM 算法。
EM 的意思是“Expectation-Maximazation”,在這個聚類問題里面,我們是先隨便猜一下這兩個正態分布的參數:如核心在什么地方,方差是多少。然后計算出每個數據點更可能屬于第一個還是第二個正態分布圈,這個是屬于 Expectation 一步。有了每個數據點的歸屬,我們就可以根據屬于第一個分布的數據點來重新評估第一個分布的參數(從蛋再回到雞),這個是 Maximazation 。如此往復,直到參數基本不再發生變化為止。這個迭代收斂過程中的貝葉斯方法在第二步,根據數據點求分布的參數上面。
2.樸素貝葉斯
樸素貝葉斯方法是很特別的方法,所以值得介紹一下。用樸素貝葉斯在垃圾郵件過濾中的應用來舉例說明。2.1 貝葉斯垃圾郵件過濾器
問題是什么?問題是,給定一封郵件,判定它是否屬于垃圾郵件。按照先例,我們還是用 D 來表示這封郵件,注意 D 由 N 個單詞組成。我們用 h+ 來表示垃圾郵件,h- 表示正常郵件。問題可以形式化地描述為求:P(h+|D) = P(h+) * P(D|h+) / P(D)
P(h-|D) = P(h-) * P(D|h-) / P(D)
其中 P(h+) 和 P(h-) 這兩個先驗概率都是很容易求出來的,只需要計算一個郵件庫里面垃圾郵件和正常郵件的比例就行了。然而 P(D|h+) 卻不容易求,因為 D 里面含有 N 個單詞 d1, d2, d3, .. ,所以P(D|h+) = P(d1,d2,..,dn|h+) 。我們又一次遇到了數據稀疏性,為什么這么說呢?P(d1,d2,..,dn|h+) 就是說在垃圾郵件當中出現跟我們目前這封郵件一模一樣的一封郵件的概率是多大!開玩笑,每封郵件都是不同的,世界上有無窮多封郵件。瞧,這就是數據稀疏性,因為可以肯定地說,你收集的訓練數據庫不管里面含了多少封郵件,也不可能找出一封跟目前這封一模一樣的。結果呢?我們又該如何來計算 P(d1,d2,..,dn|h+) 呢?
我們將 P(d1,d2,..,dn|h+) ?擴展為: P(d1|h+) * P(d2|d1, h+) * P(d3|d2,d1, h+) * .. 。熟悉這個式子嗎?這里我們會使用一個更激進的假設,我們假設 di 與 di-1 是完全條件無關的,于是式子就簡化為 P(d1|h+) * P(d2|h+) * P(d3|h+) * .. 。這個就是所謂的條件獨立假設,也正是樸素貝葉斯方法的樸素之處。而計算 P(d1|h+) * P(d2|h+) * P(d3|h+) * .. 就太簡單了,只要統計 di 這個單詞在垃圾郵件中出現的頻率即可。
2.2 為什么樸素貝葉斯方法令人詫異地好
樸素貝葉斯方法的條件獨立假設看上去很傻很天真,為什么結果卻很好很強大呢?就拿一個句子來說,我們怎么能魯莽地聲稱其中任意一個單詞出現的概率只受到它前面的 3 個或 4 個單詞的影響呢?別說 3 個,有時候一個單詞的概率受到上一句話的影響都是絕對可能的。那么為什么這個假設在實際中的表現卻不比決策樹差呢?有人對此提出了一個理論解釋,并且建立了什么時候樸素貝葉斯的效果能夠等價于非樸素貝葉斯的充要條件,這個解釋的核心就是:有些獨立假設在各個分類之間的分布都是均勻的所以對于似然的相對大小不產生影響;即便不是如此,也有很大的可能性各個獨立假設所產生的消極影響或積極影響互相抵消,最終導致結果受到的影響不大。具體的數學公式請參考[1]。3.層級貝葉斯模型
層級貝葉斯模型是現代貝葉斯方法的標志性建筑之一。前面講的貝葉斯,都是在同一個事物層次上的各個因素之間進行統計推理,然而層次貝葉斯模型在哲學上更深入了一層,將這些因素背后的因素(原因的原因,原因的原因,以此類推)囊括進來。一個教科書例子是:如果你手頭有 N 枚硬幣,它們是同一個工廠鑄出來的,你把每一枚硬幣擲出一個結果,然后基于這 N 個結果對這 N 個硬幣的θ(出現正面的比例)進行推理。如果根據最大似然,每個硬幣的 θ 不是1就是0 ,然而我們又知道每個硬幣的 p(θ) 是有一個先驗概率的,也許是一個 beta 分布。也就是說,每個硬幣的實際投擲結果 Xi 服從以 θ 為中心的正態分布,而 θ 又服從另一個以 Ψ 為中心的 beta 分布。層層因果關系就體現出來了。進而 Ψ 還可能依賴于因果鏈上更上層的因素,以此類推。3.1?隱馬可夫模型(HMM)
這個東西我也沒學明白,先打個Mark~~ 推薦吳軍寫的數學之美~~因為,只是想了解,專業上沒有用到,在這里就不討論了~~
4.參考文獻
[1]Harry Zhang,The Optimality of Naive Bayes.Faculty of Computer Science,University of New Brunswick. [2]http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/總結
以上是生活随笔為你收集整理的贝叶斯决策思想的应用与延伸的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 基于贝叶斯决策理论的分类器
- 下一篇: 不朽著作《飞鸽》