complementary prior
生活随笔
收集整理的這篇文章主要介紹了
complementary prior
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
Complementary Prior 解決了多層網絡中層間參數W無法計算的問題。
多層有向網絡如下圖,如果計算 W,我們需要知道第一個隱層的后驗概率,那么會遇到幾個問題:
1)后驗概率幾乎不可計算,因為所謂的“explaining away”或者“Berkson's Paradox”或者“section bias”[1]. explaining away是指比如p(hi|vi)與p(hj|vi)是彼此獨立的條件概率,也就是hi和hj是獨立的事件,但如果同時已知vi,hj,p(hi|vi,hj)會小于p(hi|vi). 若求W則需要求出似然項 p(v|hidden variables on the first hidden layer). 在文章中給定的情況,有一個數據層和一個隱藏層,如果p(h|v)可以分解成各個p(hi|v)的乘積形式,則可以根據公式(1)求出系數W,但分解是無法實現的,因為:如果只有一個隱層,那么隱層各個變量的先驗概率是獨立的,而后驗概率并不是獨立的,是似然項的不理想,或者說它的內含的相關性造成了后驗概率無法分解,這種非獨立性是輸入數據中的似然項(p(hi|Data) and p(hj|Data) are correlated)中的相關性造成的.這也就導致了explaining away, 比如,給定d1,d2,...,dn, 我們根據后驗概率推出h1,h2,...,hn, 但當推出h2之后,關于h1的后驗概率變化了,也就無法根據概率方程
列方程組解出W.
2)我們需要上一層的 W,才能計算這一層的 W。也就是說,這個后驗概率是依賴于上一層的先驗和似然的。
3)我們需要上一層的所有變量的“integrate”才能作為第一個隱層的先驗。
論文的Appendix A提出了一種特殊的多層有向結構,可以方便的求出后驗分布。而這種結構最大的特點就是它有 Complementary Priors。事實上,這個有向結構是等價于無向結構的。它的思想來自于當馬爾科夫鏈達到細節穩態平衡時,是可逆的。
為什么求complementary見下圖,其中x-v,y-h
介紹一下馬爾科夫過程的幾個基本概念,本文將層數的加深看作是馬爾可夫過程的逐漸收斂,也等價于Gibbs采樣:
在達到穩態時(足夠深的層對應穩態),概率分布和初始層的分布無關:
狀態和轉移概率的關系:
轉移概率的性質:
轉移概率的導數:
狀態,轉移概率及其導數之間的關系:
注意:以上字母都代表矩陣,狀態的各個分量經過轉移概率的重新分配,發生了此消彼長。
接下來我們開始加深層數,進行Gibbs采樣的過程,在Gibbs中,已知的是條件概率,正如論文中的公式(14)和(15),雖然我們不知道(16)中的聯合分布,但通過條件概率采樣次數的曾多,我們漸漸得到了滿足聯合分布(16)的樣本集合,每一次采樣都是代表狀態向量的一次更新,每一個狀態向量也就是每一層中的隨機變量集合。我們一層一層向上根據(14)和(15)交替推導,
x0-y0-x1-y1-...x0代表數據層,y0代表第一隱藏層,之后代表各個隱藏層。
當達到穩態的時候,相鄰層的隨機變量也就滿足(16)中的聯合分布。也就是說Gibbs采樣的目標就是公式(16).再根據(18,19,20)可以求出邊緣分布,并進而可以開始從上面的層往下面的層推(29,30),
?(穩態正轉移的發生率等于逆轉移的發生率)。Complementary Priors 其實就是馬爾科夫鏈的平衡分布,Hammersley-Clifford 定理證明了這點[2]。Hammersley-Clifford 定理實際上是說,Gibbs分布和馬爾科夫隨機場是等價的。其等價條件是:一個隨機場是關于鄰域系統的馬爾科夫隨機場,當且僅當這個隨機場是關于鄰域系統的Gibbs分布。
至此,我們得到了聯合分布(16),邊緣分布(28)和逆條件分布(29,30),并可以將邊緣分布乘上p(h|v)來抵消相關性進而得到獨立的分布。總之,Complementary Prior 就是在第一層隱層上再加一層或多層 Sigmoid,并且擁有和 visible ->hidden 相反作用的 W (W <-> W^T)。目的是為了抵消 explaining away 現象,該現象使得 p(h|v) 對于不同的 h_i 不可分解。若假設有一個先驗分布,使得其乘上似然之后得到的 p(h|v) 能夠被分解為 p(h_i|v) 的乘積。這個先驗就是complementary prior。
對于一個單層 Sigmoid Belief Networks,其補完先驗就是無數多層的 Sigmoid Belief Networks,且相互之間互綁 W。這個單層模型也等同于一層的RBM。這樣就可以把每一層網絡都當做弱分類器,使得每一次可以只學習一層網絡。
[1] http://www.cs.ubc.ca/~murphyk/Bayes/bnintro.html
[2] http://en.wikipedia.org/wiki/Hammersley%E2%80%93Clifford_theorem
[3]http://www.iro.umontreal.ca/~lisa/twiki/pub/Public/DeepLearningWorkshopNIPS2007/deep_learning_teh.pdf 分享到微信 https://www.douban.com/note/344374111/
| ? |
列方程組解出W.
2)我們需要上一層的 W,才能計算這一層的 W。也就是說,這個后驗概率是依賴于上一層的先驗和似然的。
3)我們需要上一層的所有變量的“integrate”才能作為第一個隱層的先驗。
論文的Appendix A提出了一種特殊的多層有向結構,可以方便的求出后驗分布。而這種結構最大的特點就是它有 Complementary Priors。事實上,這個有向結構是等價于無向結構的。它的思想來自于當馬爾科夫鏈達到細節穩態平衡時,是可逆的。
為什么求complementary見下圖,其中x-v,y-h
介紹一下馬爾科夫過程的幾個基本概念,本文將層數的加深看作是馬爾可夫過程的逐漸收斂,也等價于Gibbs采樣:
在達到穩態時(足夠深的層對應穩態),概率分布和初始層的分布無關:
狀態和轉移概率的關系:
轉移概率的性質:
轉移概率的導數:
狀態,轉移概率及其導數之間的關系:
注意:以上字母都代表矩陣,狀態的各個分量經過轉移概率的重新分配,發生了此消彼長。
接下來我們開始加深層數,進行Gibbs采樣的過程,在Gibbs中,已知的是條件概率,正如論文中的公式(14)和(15),雖然我們不知道(16)中的聯合分布,但通過條件概率采樣次數的曾多,我們漸漸得到了滿足聯合分布(16)的樣本集合,每一次采樣都是代表狀態向量的一次更新,每一個狀態向量也就是每一層中的隨機變量集合。我們一層一層向上根據(14)和(15)交替推導,
x0-y0-x1-y1-...x0代表數據層,y0代表第一隱藏層,之后代表各個隱藏層。
當達到穩態的時候,相鄰層的隨機變量也就滿足(16)中的聯合分布。也就是說Gibbs采樣的目標就是公式(16).再根據(18,19,20)可以求出邊緣分布,并進而可以開始從上面的層往下面的層推(29,30),
?(穩態正轉移的發生率等于逆轉移的發生率)。Complementary Priors 其實就是馬爾科夫鏈的平衡分布,Hammersley-Clifford 定理證明了這點[2]。Hammersley-Clifford 定理實際上是說,Gibbs分布和馬爾科夫隨機場是等價的。其等價條件是:一個隨機場是關于鄰域系統的馬爾科夫隨機場,當且僅當這個隨機場是關于鄰域系統的Gibbs分布。
| ? |
對于一個單層 Sigmoid Belief Networks,其補完先驗就是無數多層的 Sigmoid Belief Networks,且相互之間互綁 W。這個單層模型也等同于一層的RBM。這樣就可以把每一層網絡都當做弱分類器,使得每一次可以只學習一層網絡。
[1] http://www.cs.ubc.ca/~murphyk/Bayes/bnintro.html
[2] http://en.wikipedia.org/wiki/Hammersley%E2%80%93Clifford_theorem
[3]http://www.iro.umontreal.ca/~lisa/twiki/pub/Public/DeepLearningWorkshopNIPS2007/deep_learning_teh.pdf 分享到微信 https://www.douban.com/note/344374111/
總結
以上是生活随笔為你收集整理的complementary prior的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: YUV常用的两种保存方式_YUY2和YV
- 下一篇: 如何在网页上快速查找内容