再谈变分自编码器(VAE):估计样本概率密度
?PaperWeekly 原創 ·?作者 |?蘇劍林
單位 |?追一科技
研究方向 | NLP、神經網絡
在本系列的前面幾篇文章中,我們已經從多個角度來理解了 VAE,一般來說,用 VAE 是為了得到一個生成模型,或者是做更好的編碼模型,這都是 VAE 的常規用途。但除了這些常規應用外,還有一些“小眾需求”,比如用來估計 的概率密度,這在做壓縮的時候通常會用到。
本文就從估計概率密度的角度來了解和推導一下 VAE 模型。
兩個問題
所謂估計概率密度,就是在已知樣本 的情況下,用一個待定的概率密度簇 去擬合這批樣本,擬合的目標一般是最小化負對數似然:
但這純粹都只是理論形式,還有諸多問題沒有解決,主要可以歸為兩個大問題:
1. 用什么樣的 去擬合;
2. 用什么方法去求解上述目標。
混合模型
第一個問題,我們自然是希望 的擬合能力越強越好,最好它有能力擬合所有概率分布。然而很遺憾的是,神經網絡雖然理論上有萬能擬合能力,但那只是擬合函數的能力,并不是擬合概率分布的能力,概率分布需要滿足 且,后者通常難以保證。
直接的做法做不到,那么我們就往間接的角度想,構建混合模型:
其中 通常被選擇為無參數的簡單分布,比如標準正態分布;而 則是帶參數的、以 為條件的簡單分布,比如均值、方差跟 相關的標準正態分布。
從生成模型的角度來看,上述模型被解釋為先從 中采樣 ,然后傳入? 中生成 的兩步操作。但本文的焦點是估計概率密度,我們之所以選擇這樣的 ,是因為它有足夠的擬合復雜分布的能力,最后的 表示為了多個簡單分布 的平均,了解高斯混合模型的讀者應該知道,這樣的模型能夠起到非常強的擬合能力,甚至理論上能擬合任意分布,所以分布的擬合能力有保證了。
重要采樣
但式(2)是無法簡單積分出來的,或者說只有這種無法簡單顯式地表達出來的分布,才具有足夠強的擬合能力,所以我們要估計它的話,都要按照 的方式進行采樣估計。然而,實際的場景下, 和 的維度比較高,而高維空間是有“維度災難”的,這意思是說在高維空間中,我們哪怕采樣百萬、千萬個樣本,都很難充分地覆蓋高維空間,也就是說很難準確地估計 。
為此,我們要想辦法縮小一下采樣空間。首先,我們通常會將 的方差控制得比較小,這樣一來,對于給定 ,能夠使得 比較大的 就不會太多,大多數 算出來的 都非常接近于零。于是我們只需要想辦法采樣出使得 比較大的 ,就可以對 進行一個比較好的估計了。
具體來說,我們引入一個新的分布 ,假設使得 比較大的 服從該分布,于是我們有
這樣一來我們將從 “漫無目的”的采樣,轉化為從 的更有針對性的采樣。由于 的方差控制得比較小,所以 的方差自然也不會大,采樣效率是變高了。注意在生成模型視角下, 被視為后驗分布的近似,但是從估計概率密度的視角下,它其實就是一個純粹的重要性加權函數罷了,不需要特別詮釋它的含義。
訓練目標
至此,我們解決了第一個問題:用什么分布,以及怎么去更好地計算這個分布。剩下的問題就是如何訓練了。
其實有了重要性采樣的概念后,我們就不用考慮什么 ELBO 之類的了,直接使用目標(1)就好,代入 的表達式得到:
事實上,如果 這一步我們通過重參數只采樣一個 ,那么訓練目標就變成:
這其實已經就是常規 VAE 的訓練目標了。如果采樣 個,那么就是:
這就是“重要性加權自編碼器”了,出自《Importance Weighted Autoencoders》[1] ,它被視為 VAE 的加強。總的來說,通過重要性采樣的角度,我們可以繞過傳統 VAE 的 ELBO 等繁瑣推導,也可以不用《變分自編碼器(二):從貝葉斯觀點出發》所介紹的聯合分布視角,直接得到 VAE 模型甚至其改進版。
文章小結
本文從估計樣本的概率密度這一出發點介紹了變分自編碼器 VAE,結合重要性采樣,我們可以得到 VAE 的一個快速推導,完全避開 ELBO 等諸多繁瑣細節。
參考文獻
[1] https://arxiv.org/abs/1509.00519
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的再谈变分自编码器(VAE):估计样本概率密度的全部內容,希望文章能夠幫你解決所遇到的問題。