变分推断(Variational Inference)最新进展简述
動機
變分推斷(Variational Inference, VI)是貝葉斯近似推斷方法中的一大類方法,將后驗推斷問題巧妙地轉化為優(yōu)化問題進行求解,相比另一大類方法馬爾可夫鏈蒙特卡洛方法(Markov Chain Monte Carlo, MCMC),VI 具有更好的收斂性和可擴展性(scalability),更適合求解大規(guī)模近似推斷問題。
當前機器學習兩大熱門研究方向:深度隱變量模型(Deep Latent Variable Model, DLVM)和深度神經網(wǎng)絡模型的預測不確定性(Predictive Uncertainty)的計算求解都依賴于 VI,尤其是 Scalable VI。
其中,DLVM 的一個典型代表是變分自編碼器(Variational Autoencoder, VAE),是一種主流的深度生成模型,廣泛應用于圖像、語音甚至是文本的生成任務上;而預測不確定性的典型代表是貝葉斯神經網(wǎng)絡(Bayesian Neural Network, BNN)。
當前 DNN 的一大缺陷是預測“過于自信”,“不知道自己不知道什么”,對于安全性要求很高的任務來說,難以勝任,而 BNN 不僅給出預測值,而且給出預測的不確定性,從而使得模型“知道自己不知道什么”,BNN 廣泛應用于探索與利用(Exploration & Exploitation, EE)問題(比如:主動學習、貝葉斯優(yōu)化、Bandit 問題)和分布外樣本檢測問題(比如:異常檢測、對抗樣本檢測)等。
本文以最經典的 VI 方法 Mean Field VI (MFVI) 為基礎,從以下幾個角度依次簡述 VI 方法的最新進展:
如何更好地度量變分后驗分布和真實后驗分布之間的差異??
如何使用更復雜的先驗分布來描述參數(shù)信息??
如何使用更復雜的后驗分布簇來降低 VI 方法的 bias??
如何通過隨機梯度估計方法來提升 VI 方法的 scalability?
問題定義
考慮一個一般性的問題, x 是 n 維的觀測變量,z 是 m 維的隱變量,貝葉斯模型中需要計算后驗分布,如下:?
其中,p(z) 是先驗分布,p(x|z) 是似然函數(shù), p(x)=∫p(z)p(x|z),稱為 evidence,通常 p(x) 是一個不可積的多重積分,導致后驗分布 p(z|x) 無法獲得解析解,同時因為 p(x) 只與確定的觀測變量有關,在計算時可認為是一個常數(shù)。
VI 假設后驗分布用一個變分分布 q(z;θ) 來近似,通過構造如下優(yōu)化問題:
來求解使得兩個分布距離最小的變分分布參數(shù) θ,從而得到近似后驗分布。
因為真實后驗分布是未知的,直接優(yōu)化公式(2)是一件比較有挑戰(zhàn)的事情,VI 巧妙地將其轉化為優(yōu)化 ELBO 的問題。推導過程如下:
等號兩邊移動一下可得:?
由 KL Divergence 的定義可知, KL(q(z;θ)||p(z|x;ф))≥0,同時 logp(x;ф) 是個常數(shù),所以求優(yōu)化問題(2)等價于求如下優(yōu)化問題:?
這里的目標函數(shù) ELBO 稱為 Evidence Lower BOund (ELBO),繼續(xù)推導如下:
ELBO 的形式推導可由 Jensen 不等式直接推導出,如下:
公式(6)和公式(7)是一致的,所以求變分后驗分布與真實后驗分布 KL Divergence 的最小化等價于求 ELBO 的最大化,而 ELBO 的具體形式如(6)(7)所示,進一步整理可得:
其中第一項可以理解為基于變分后驗分布的重建似然函數(shù),第二項是變分后驗分布與先驗分布的 KL?Divergence。
ELBO 的形式推導是 VI 的基礎,也是后續(xù)各種VI 方法的前提,大多數(shù) VI 方法都旨在解決高效求解 ELBO 優(yōu)化的問題。從 ELBO 的形式可以看出,待優(yōu)化的目標函數(shù)是一個函數(shù)的期望,如何高效估計出目標的梯度是解決問題的關鍵。本文將從最經典的 MFVI 講起,然后依次從幾個改進角度來綜述 VI 的研究進展。
Mean Field VI (MFVI)
MFVI 最早應用于統(tǒng)計物理,假設變分后驗分布是一種完全可分解的分布,如下式:?
將公式(9)代入公式(7),同時只考慮第 j 個分布,可得:
其中,是指除掉第 j 項的所有項,是指與第 j 項無關的常數(shù)項。?
公式(10)可以看作是一個負 KL Divergence 項,為使得 ELBO(j) 最大,所以負 KL Divergence 為?0, 可得到:
進一步整理得到:
可以利用坐標上升法(Coordinate Ascent, CAVI)來迭代求解該優(yōu)化問題,具體算法參見下圖:
改進MFVI的幾個角度
如何更好地度量變分后驗分布和真實后驗分布之間的差異?
從公式(2)的目標函數(shù)可以看出,VI 將近似推斷問題轉化為了優(yōu)化問題,使用的是最基礎的分布距離度量方法 KL Divergence,因為 KL Divergence 是一個非對稱的度量方法,即 KL(q||p)≠KL(p||q) , 因此這里存在幾個值得深入研究的點。
是否可以用 KL(p||q)?來度量變分后驗分布和真實后驗分布的距離?
是否可以用其他度量方法來度量兩者之間的距離?
本小節(jié)中的 Expectation Propagation 旨在回答第一個問題,f-Divergence 和 Stein Disparency 旨在回答第二個問題。
Expectation Propagation
從廣義上講,凡是基于一個分布簇進行優(yōu)化參數(shù)來逼近真實后驗分布的,都可以歸為 VI 方法;從狹義上講,本文開始定義的問題和思路是最經典的 VI 方法。EP 將公式(2)的目標函數(shù)更改如下:
?
EP?也是一個非常活躍的研究領域,由于本文旨在介紹狹義的 VI?方法,因此對 EP?不作詳細介紹,感興趣的同學可以去看這個頁面的內容https://tminka.github.io/papers/ep/roadmap.html?。
α-Divergence
KL Divergence 是一種特殊的 α-Divergence,一種常見的 Renyi 定義如下:
?
同時要求,α>0,αneq1,|Dα|<+∞。
▲?圖:Renyi α-Divergence的幾種特殊形式而 α?Divergence?是一種特殊的?f?Divergence,形式如下:
?
同時要求?f?是凸函數(shù),且?f(1)=0 。
除了 Renyi 的定義,還有很多不同的定義,有的定義會恰好可以統(tǒng)一VI 和 EP 兩種方法,如下圖所示,當 α=0 時,該 Divergence 等價于 KL(q||p),相當于是 VI 方法;當 α=1 時,該 Divergence 等價于 KL(p||q),相當于是 EP 方法。
接著 Renyi 的定義,考慮公式(3)的形式:
用 Renyi α-Divergence 來代替公式(16)中的 KL Divergence,定義Variational Renyi Bound(VR Bound,Rényi Divergence Variational Inference),將公式(14)代入可得:
從而推導出 VRBound 如下:
公式(18)的最后一步時根據(jù) Jeson 不等式得來的,它是公式(7)(8)中ELBO 的一般形式,當 α=0 時,VRBound 將降階為 ELBO。可根據(jù)一般 VI 方法的思路來設計 VRBound 的優(yōu)化算法,將其應用于各種類型的近似推斷任務中。
Stein Disparency
Stein Disparency 是近幾年比較熱門的一種度量兩個分布之間距離的方法,定義如下:
其中,F 表示一系列光滑的函數(shù)。兩個分布越相似,Stein Disparency 就越小。
公式(19)中的右邊一項包含了未知的真實后驗分布 p(z|x) ,無法計算。如何構造一些合適的 f(z) 可以使得 Ep(z|x)[f(z)]=0 ,從而消除掉未知分布的影響。Stein 的方法給出了一類合適的 f(z) ,如下:
代入到 Ep(z|x)[f(z)] 中可以得到:
令其等于 0,得到:
當找到合適的 f(z) 使得公式(19)右邊的一項為 0,只需要計算前面的一項。近幾年有一些工作將此方法應用到了 VI 中,其中具有代表性的是 Stein Variational Gradient Descent 和 Operator VI,前者用了 kernel 的方法來計算,后者用了 GAN 的思路來求解。
如何使用更復雜的先驗分布來描述參數(shù)信息?
先驗分布通常是專家經驗的一個量化途徑,將專家對領域的知識表示為一個先驗分布,先驗越復雜,表明融入的知識會越多,對后驗推斷會有較大的影響,為簡化計算,先驗通常選為高斯分布或者混合高斯分布。近些年的一些研究工作表明,先驗分布的復雜度以及超參數(shù)的選擇對于深度生成模型和貝葉斯神經網(wǎng)絡的效果影響很大,本小節(jié)簡單對先驗分布的一些相關工作進行介紹。?
AISTATS 2018 一篇來自 Max Welling 組的工作,提出了一種新的復雜先驗分布 VampPrior(Variational ?Mixture of Posteriors Prior),并且在 VAE 上進行了實驗測試,相比標準的高斯分布先驗和混合高斯分布先驗有更好的 Log Likelihood 和表示學習效果。思路如下:?
將公式(8)改寫為以下形式:
?
公式(23)中第一項是重建的似然函數(shù),第二項是變分后驗分布的熵,第三項是負的變分后驗分布和先驗分布的交叉熵。
為了保證 ELBO 最大化,需滿足第三項也最大化,問題在于如何找到一個合適的先驗分布 ,描述參數(shù)為 ,使得其拉格朗日乘子表達式最大:
該問題的最優(yōu)解為:
如果用公式(25)的分布作為先驗會導致計算量非常大,同時帶來過擬合的風險。因此,這個工作基于此考慮,用下式來代替(25):
這里需要優(yōu)化的參數(shù)。因為此先驗分布是與后驗分布的混合,所以取名為 Variational Mixture of Posteriors Prior。這里的是一些所謂的偽輸入,而非真實的輸入,也是需要學習的參數(shù)。一方面 VampPrior 是更加復雜的多模態(tài)分布,對數(shù)據(jù)的建模更加準確;另一方面,因為 K<<N,計算量也會相對較少一些。?
由上圖可見,VampPrior 比標準的正態(tài)分布和混合高斯分布有著明顯的提升,同時因為 Prior 的復雜化和 Posterior 的復雜化是解耦的,如果后驗分布采用更加復雜的 Normalized Flow,可能會有更好的效果。
ICLR 2019?一篇來自 Max Welling?參與的工作?Deep Weight Prior,提出了一種 implicit prior distribution 來提升 prior 的復雜度。implicit distribution 大概的定義是,無法得到該分布的 pdf,但可以從該分布中進行采樣、估計期望和梯度。這個工作的思路如下:
其中,p(w) 是一個顯式分布密度函數(shù),作為先驗分布 p(z) 的先驗分布,p(z|w;α) 是一個顯式的參數(shù)分布密度函數(shù),由參數(shù) α 描述。
為統(tǒng)一符號,本文采用了與原文不同的符號表示,但示意圖原理一致。從圖中可以看出,BNN(Bayesian Neural Network)權重的先驗分布可以通過構造一個 VAE 進行學習,而學習的數(shù)據(jù)則來自相似任務中具有相同網(wǎng)絡架構的模型。
具體地講,本文在 cifar10?數(shù)據(jù)集上用兩層的 5 * 5 和 7 * 7 卷積核作為網(wǎng)絡結構,分別訓練了 CNN,從中獲取了這兩類網(wǎng)絡架構的權重值作為數(shù)據(jù)進行學習。學習得到權重的implicit distribution 之后,作為具有同樣結構的Bayesian CNN 的權重的 prior 來應用。
上圖中左圖為學習到的卷積核,而右圖為從隱分布中 sample 出來的卷積核。基于復雜的隱先驗分布,這篇工作測試了 BCNN 在小樣本數(shù)據(jù)集上的效果,如下圖:
從上圖中可以看出,本文的方法 dwp 比標準正態(tài)分布和均勻分布作為先驗有更好的效果。
如何使用更復雜的后驗分布簇來降低VI方法的bias?
變分分布是用來替代真實后驗分布的,兩者的差異越大,后驗推斷的系統(tǒng)偏差就會越大。有研究結果表明,變分后驗分布簇的選擇對變分推斷效果的影響非常大。
經典的 VI,會基于簡單的平均場(mean-fifiled)假設,用可分解的高斯分布或者一些簡單結構的分布來作為變分分布;現(xiàn)在的 VI,需要解決的是數(shù)據(jù)規(guī)模更大、維度更高的問題,經典 VI 的變分分布難以滿足。因此,最近幾年有一系列工作來研究如何構造一系列更加復雜且方便計算的復雜后驗分布來解決這一問題。
上圖中,最右邊表示分布簇表達能力最弱的 MF,最左邊表示表達能力最強的真實后驗,中間方法都是對 MFVI 的改進,通過復雜化后驗分布來降低 bias。
Copula方法
大多數(shù)的 VI 方法都基于 Mean-Field 的思路,假設變分后驗分布中隱變量之間相互獨立,這個假設太強,對結果有一定的影響。
NIPS 2015 一篇 David M. Blei 組的工作 Copula Variational Inference 嘗試用統(tǒng)計學的經典方法 Copula 來解決 MF 中隱變量的獨立假設問題。這篇工作的動機非常簡單,就是找到一種既考慮隱變量之間的關聯(lián)性同時也容易進行大規(guī)模計算的方法。思路如下:
其中公式中的前半部分是 Mean-Field,而后半部分正是所謂的 Copula。
將公式(28)代入到公式(8)得到 Copula VI 的 EBLO,剩下的工作就是推導 ELBO 的梯度估計式,利用隨機優(yōu)化算法更新參數(shù),不同于一般的 VI,Copula VI 有兩種參數(shù),一種是描述變分分布的參數(shù),另一種是描述 Copula 的參數(shù),在訓練時,固定其中一種來訓練另外一種。梯度估計的公式推導在下一小節(jié)會有詳細介紹,這里不再贅述。
從上圖中可以看出 Copula VI 比 MFVI 離真實后驗分布更近,bias 更小。Copula 是統(tǒng)計學中的經典方法,對此感興趣的讀者可以去找相關資料進行學習。
輔助變量法
輔助變量法的思路比較簡單,它認為隱變量 z 背后還有隱變量 w,是一種層次化建模的思想。即:
圖中 r(w|x,z) 正是所謂的輔助變量。將公式(29)代入到公式(8)中可以得到該方法的 ELBO,推導過程類似,這里不再贅述。這種引入輔助變量的方法,其實也是令變分后驗分布成為一種表達能力更強的隱分布。
Normalized Flow?歸一化流
實際應用中的真實后驗分布往往是非常復雜的多模態(tài)分布,如何構造出一個復雜的分布簇來逼近多模態(tài)分布十分重要。本節(jié)介紹的歸一化流正是解決這個問題的合適方法。歸一化流是一系列分布變換操作,可將簡單的高斯分布變換成任意形狀的分布。
歸一化流的基礎是隨機變量分布的變換:
其中,p(y) 是 y 的分布,p(x) 是 x 的分布,這里 y=f(x),J 是指雅可比矩陣,即多元函數(shù)一階導數(shù)矩陣。
歸一化流以及其基礎版 pathwise derivative(下一節(jié)介紹),核心都在解決一個問題,能否找到一個合適的雙射(one-to-one mapping)保證正向映射過程可以很容易 sampling,同時容易計算其雅可比行列式;反向過程,容易計算 inverse function。如果可以解決上述兩個問題,就可以將非常簡單的分布,比如:均勻分布和高斯分布,通過一系列的變換(Flow)生成出復雜的分布和預期的分布,如下圖。
如果初始分布經過 K 次變換如下:
其概率密度函數(shù) pdf 如下:
可以進行如此推導的依據(jù)是 law of the unconscious statistician (LOTUS) ,在 pathwise derivative 一節(jié)也會提到。
Rezende 和 Mohamed 在 2015 年的 ICML 上提出了用歸一化流作為變分后驗分布,并給出了兩種 baseline 分布變換,一種是 Planar (一種線性變換):
這里 h 是一個光滑的非線性函數(shù),先求公式(32)中的行列式:
其中,代入到公式(32)可得:
一種是 Radial(一種極性變換):
以 Planar 為例,將歸一化流代入到EBLO 中可以得到:
基于歸一化流的 VI 方法在求解時和一般的 VI 沒太多區(qū)別,這里不再贅述。上圖是基于歸一化流做的一個分布逼近實驗,從結果中可以看出通過 32 次分布變換之后,可以準確地逼近左圖中給出的復雜分布。
除了文章中介紹的歸一化流方法,最近幾年學術界提出了很多種 Flow 的方法,比如:NICE、Masked Autoregressive Flow(MAF)、Inverse Autoregressive Flow(IAF)等。感興趣的同學可以去看Stanford CS236 Deep Generative Models Course。
如何通過隨機梯度估計方法來提升VI方法scalability?
從變分推斷的優(yōu)化目標函數(shù) ELBO 中可以看到,需要優(yōu)化的是一個函數(shù)的期望,而非確定性的函數(shù)。相比于其他優(yōu)化算法,基于梯度的隨機優(yōu)化算法在解決大規(guī)模數(shù)據(jù)、高維度問題中有著巨大的優(yōu)勢,因此,如何準確估計出函數(shù)期望的導數(shù)是核心問題。機器學習中,常用的隨機梯度估計方法包括:score Function 和 pathwise derivative。
Score Function (SF)
所謂的 score function 是 ,score function 的期望為 0,證明如下:
這樣會帶來非常多的便利,比如:一種降低估計方差的思路,將代價函數(shù) f(x) 改造為 f(x)-b ,其中 b 是所謂的 baseline。因為 score function 的期望為?0,所以:
?
ELBO 推導出的優(yōu)化問題如下:
其中,x 是觀測變量,z 是隱變量,q(z) 是變分分布,λ 是變分分布的參數(shù)。
計算 L(λ) 的梯度如下:
公式(41)倒數(shù)第三行到導數(shù)第二行的推導利用了 score function 的期望為 0?這一性質,基于公式(41)就可以利用蒙特卡洛采樣進行梯度估計,然后利用隨機優(yōu)化算法進行參數(shù)的更新。算法流程圖如下:
參數(shù)估計除了要保證無偏之外,還希望估計的方差要盡量小。在此基礎上,本節(jié)介紹一種經典的降低方差的方法 Control Variates,也會用到 score function 的一些性質。
這里,假設一個估計是 f,希望可以找到一個新估計,使得:
控制變量法是構造一類估計函數(shù),定義如下:
其中,a 是一個標量,h 是一個函數(shù)。由公式(43)容易得到,?和 f 的期望相同,方差如下:
直觀上講,Cov(f,h) 越大,新估計的方差越小,控制變量效果越好。令:
可得:
最優(yōu)參數(shù)值是協(xié)方差和方差之比。為了方便計算,函數(shù) h(z) 的選擇是 score function,即:
所以,E[h(z)]=0。
用新的估計來替換公式(41)中的估計 f,如下:
基于蒙特卡洛采樣對梯度進行估計,從上述推導中可以保證新的估計方差會更小。
Score Function 在使用時一般要滿足以下條件:
代價函數(shù) f(x) 可以是任意函數(shù)。比如可微的,不可微的;離散的,連續(xù)的;白箱的,黑箱的等。
這個性質是其最大的優(yōu)點,使得很多不可微的甚至沒有具體函數(shù)的黑箱優(yōu)化問題都可以利用梯度優(yōu)化求解。
分布函數(shù) p(x;θ) 必須對 θ 是可微的,從公式中也看得出來。
分布函數(shù)必須是便于采樣的,因為梯度估計都是基于 MC 的,所以希望分布函數(shù)便于采樣。
SF 的方差受很多因素影響,包括輸入的維度和代價函數(shù)。
另外,SF 還有一些其他的名稱,Likelihood Ratio,Automated Variational Inference,REINFORCE,Policy Gradients,在機器學習的很多領域中都有廣泛的應用。
Pathwise Derivative (PD)
不同于 Score Function 對代價函數(shù)沒有任何約束,PD 要求代價函數(shù)可微,雖然 SF 更具一般性,但 PD 會有更好的性質。PD 在機器學習領域有另一個名稱是 reparameterization trick,它是著名的深度生成模型 VAE 中一個重要的步驟。
PD?的思路是將待學習的參數(shù)從分布中變換到代價函數(shù)中,核心是做分布變換(即所謂的?reparameterization,重參數(shù)化),計算原來分布下的期望梯度時,由于變換后的分布不包含求導參數(shù),可將求導和積分操作進行對換,從而基于 MC 對梯度進行估計。
如上述公式,從一個含參 θ 分布中采樣,等同于從一個簡單無參分布中采樣,然后進行函數(shù)變換,并且此函數(shù)的參數(shù)也是 θ。變換前,采樣是直接從所給分布中進行,而采用重參數(shù)化技巧后,采樣是間接地從一個簡單分布進行,然后再映射回去,這個映射是一個確定性的映射。其中,映射有很多中思路,比如:逆函數(shù)、極變換等方法。
PD 的一個重要理論依據(jù)是 Law of the Unconscious Statistician (LOTUS) ,即:
從定理中可以看到,計算一個函數(shù)的期望,可以不知道其分布,只需要知道一個簡單分布,以及從簡單分布到當前分布的映射關系即可。
基于 Law of the Unconscious Statistician (LOTUS)?對 PD 進行推導,如下:
利用 MC 可以估計出梯度為:
其中?。從推導中可以看出,分布中的參數(shù) θ 被 push 到了代價函數(shù)中,從而可以將求導和積分操作進行對換。
分布變換是統(tǒng)計學中一個基本的操作,在計算機中實際產生各種常見分布的隨機數(shù)時,都是基于均勻分布的變換來完成的。有一些常見的分布變換可參見下表:
▲?圖:常見分布變換
在使用 PD 時需要滿足以下性質:
代價函數(shù)要求是可微的,比 SF 更嚴格
在使用 PD 時,并不需要顯式知道分布的形式,只需要知道一個基礎分布和從該基礎分布到原分布的一個映射關系即可,這意味著,不管原來分布多么復雜,只要能獲取到以上兩點信息,都可以進行梯度估計;而 SF 則需要盡量選擇一個易采樣的分布
PD?的方差受代價函數(shù)的光滑性影響
另外,PD 還有一些其他名稱,Stochastic backpropagation,Affiffiffine-independent inference 和 Reparameterisation Tricks 等。
應用
變分推斷方法在深度學習中有兩個非常典型而且熱門的應用,一個是貝葉斯神經網(wǎng)絡 BNN,一個是變分自編碼器 VAE。后續(xù)會專門寫兩篇關于 BNN 和 VAE 的綜述,這里簡單介紹一下。
貝葉斯神經網(wǎng)絡?BNN
貝葉斯神經網(wǎng)絡不同于一般的神經網(wǎng)絡,其權重參數(shù)是隨機變量,而非確定的值。如下圖所示:
假設 NN 的網(wǎng)絡參數(shù)為 W,p(W) 是參數(shù)的先驗分布,給定觀測數(shù)據(jù) D={X,Y},這里 X 是輸入數(shù)據(jù),Y 是標簽數(shù)據(jù)。BNN 希望給出以下的分布:
其中:
這里 P(W|D) 是后驗分布,P(D|W) 是似然函數(shù),P(D) 是邊緣似然。
從公式(53)中可以看出,用 BNN 對數(shù)據(jù)進行概率建模并預測的核心在于做高效近似后驗推斷,而 VI 是一個非常合適的方法。
BNN 不同于 DNN,可以對預測分布進行學習,不僅可以給出預測值,而且可以給出預測的不確定性。這對于很多問題來說非常關鍵,比如:機器學習中著名的 Exploration & Exploitation (EE)的問題,在強化學習問題中,agent 是需要利用現(xiàn)有知識來做決策還是嘗試一些未知的東西;實驗設計問題中,用貝葉斯優(yōu)化來調超參數(shù),選擇下一個點是根據(jù)當前模型的最優(yōu)值還是利用探索一些不確定性較高的空間。比如:異常樣本檢測,對抗樣本檢測等任務,由于 BNN 具有不確定性量化能力,所以具有非常強的魯棒性。
變分自編碼器?VAE
深度生成模型中兩個最有名的模型是 GAN 和 VAE,有工作介紹過GAN 和 VAE 從 VI 的視角是可以統(tǒng)一起來的。這類簡單介紹一下VAE,VAE 是一種隱變量模型(Latent Variable Model, LVM)和深度學習巧妙結合的產物。如下圖:
模型中由兩個部分構成,一個是觀測數(shù)據(jù) x 到隱變量 z 的映射模型,稱為 encoder,另一個是從隱變量 z 到觀測數(shù)據(jù) x 的映射模型,稱為 decoder。encoder 相當于是求一個后驗分布,這里用 VI 的方法,假設用一個高斯變分分布 qф(z|x) 來代替真實的后驗分布,并用 DNN 來近似逼近這個高斯分布的均值和方差。
從上圖中可以看到,經過encoder 和decoder 的映射,輸入是觀測數(shù)據(jù) x,期待的輸出數(shù)據(jù)也是 x,不需要對樣本進行標注。VAE 在 loss function 推導時需要用到隨機梯度估計一節(jié)提到的 Pathwise Derivative,在這里叫做 Reparameterization Trick 來估計梯度。VAE 是一個非常有趣的模型,從結構上來看,隱變量空間相當于是一個原數(shù)據(jù)的降維表示,在很多地方將會有非常有趣的應用。
VI 除了應用在 BNN 和 VAE 之外,還在 Policy Gradient、AutoML 和 PGM 等領域被廣泛使用。
總結
本文是對 VI 方法進展的一個簡述,主要思路是從 VI 經典方法和相關的幾個問題來展開,包括:分布測度、復雜先驗、復雜后驗、VI 的可擴展性以及應用來敘述。
由于 VI 是一大類方法,每年新增的研究工作不計其數(shù),近二年與 MCMC 的結合和統(tǒng)一催生了一批新的高效方法和理論分析,實在難以覆蓋所有工作。希望通過本文介紹的思路,讀者可以快速地了解這個領域,做應用的同學可以找一些合適的方法來解決應用問題,準備做機器學習理論研究的同學可以參考本文的思路,有針對性地尋找到感興趣的方向。?
參考文獻
[1] Zhang, Cheng, et al. “Advances in Variational Inference.” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 41, no. 8, 2019, pp. 2008–2026.
[2]?Blei, David M., et al. “Variational Inference: A Review for Statisticians.” Journal of the American Statistical Association, vol. 112, no. 518, 2017, pp. 859–877.
[3] Wainwright, Martin J., and Michael I. Jordan. Graphical Models, Exponential Families, and Variational Inference. 2008.
[4] Rezende, Danilo Jimenez, and Shakir Mohamed. “Variational Inference with Normalizing Flows.” ArXiv Preprint ArXiv:1505.05770, 2015.
[5] Kingma, Diederik P., et al. “Improving Variational Inference with Inverse Autoregressive Flow.” ArXiv Preprint ArXiv:1606.04934, 2016.
[6] Tran, Dustin, et al. “Copula Variational Inference.” NIPS’15 Proceedings of the 28th?International Conference on Neural Information Processing Systems - Volume 2, 2015, pp. 3564–3572.
[7] Ranganath, Rajesh, et al. “Operator Variational Inference.” NIPS’16 Proceedings of the 30th International Conference on Neural Information Processing Systems, 2016, pp. 496–504.
[8] Liu, Qiang, and Dilin Wang. “Stein Variational Gradient Descent: A General Purpose Bayesian Inference Algorithm.” Advances in Neural Information Processing Systems, 2016, pp. 2370–2378.
[9] Atanov, Andrei, et al. “The Deep Weight Prior.” ICLR 2019 : 7th International Conference on Learning Representations, 2019.
[10] Tomczak, Jakub M., and Max Welling. “VAE with a VampPrior.” ArXiv Preprint?ArXiv:1705.07120, 2017.
[11] Yin, Mingzhang, and Mingyuan Zhou. “Semi-Implicit Variational Inference.” ICML 2018: Thirty?Fifth International Conference on Machine Learning, 2018, pp. 5646–5655.
[12] Ranganath, Rajesh, et al. “Black Box Variational Inference.” Journal of Machine Learning Research, vol. 33, 2014, pp. 814–822.
點擊以下標題查看更多往期內容:?
#活 動 推 薦#
?10.31-11.1 北京智源大會?
世界AI看中國,中國AI看北京!?百位頂級專家,60+前沿報告,10+圓桌論壇與尖峰對話,為你帶來內行的AI盛會。薈萃全球頂級學者:John Hopcroft(圖靈獎),Michael Jordan(機器學習權威學者),Chris Manning(NLP權威學者),朱松純(計算機視覺權威學者),張鈸、高文、戴瓊海和張平文院士等100多位專家。掃碼查看大會詳細日程,注冊參會時輸入優(yōu)惠碼「PAPERWEEKLY」專享7折優(yōu)惠,學生票僅69元(數(shù)量有限,先到先得)。
?
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點擊 |?閱讀原文?| 獲取最新論文推薦
總結
以上是生活随笔為你收集整理的变分推断(Variational Inference)最新进展简述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 厨房与卫生间的面积之和与客厅相比哪个大大
- 下一篇: 如何在租房的时候防止被欺骗呢?