两个多元正态分布的KL散度、巴氏距离和W距离
?PaperWeekly 原創 ·?作者?|?蘇劍林
單位?|?追一科技
研究方向?|?NLP、神經網絡
正態分布是最常見的連續型概率分布之一。它是給定均值和協方差后的最大熵分布(參考《“熵”不起:從熵、最大熵原理到最大熵模型(二)》[1] ),也可以看作任意連續型分布的二階近似,它的地位就相當于一般函數的線性近似。從這個角度來看,正態分布算得上是最簡單的連續型分布了。也正因為簡單,所以對于很多估計量來說,它都能寫出解析解來。
本文主要來計算兩個多元正態分布的幾種度量,包括 KL 散度、巴氏距離和 W 距離,它們都有顯式解析解。
正態分布
這里簡單回顧一下正態分布的一些基礎知識。注意,僅僅是回顧,這還不足以作為正態分布的入門教程。
1.1 概率密度
正態分布,也即高斯分布,是定義在 上的連續型概率分布,其概率密度函數為:
這里的 , 即均值向量(本文的向量默認情況下都為列向量),而 即為協方差矩陣,它要求是對稱正定的。可以看到,正態分布由 和 唯一確定,因此不難想象它的統計量都是 和 的函數。當 時,對應的分布稱為“標準正態分布”。
1.2 基本性質
通常來說,基本的統計量就是均值和方差了,它們對應著正態分布的兩個參數:
由此也可以推出二階矩的結果:
還有一個常用的統計量是它的熵:
其計算過程可以參考后面 KL 散度的推導。
1.3 高斯積分
概率密度函數意味著 ,這就可以推出:
設 ,那么得到高斯積分:
利用它我們可以算出正態分布的特征函數:
特征函數可以用來算正態分布的各階矩。
線性代數
這里補充一些線性代數基礎,它們在后面的推導中會頻繁用到。同樣地,這僅僅是“回顧”,并不能作為線性代數教程。
2.1 內積范數
首先,我們來定義內積和范數。對于向量 和 ,內積按照:
來定義,而模長定義為 。對于 的矩陣 ,我們按照類似的方式定義:
這稱為 Frobenius 內積,對應的 稱為 Frobenius 范數。不難看到,Frobenius 內積和范數,事實上就是把矩陣展平為向量后,當作常規的向量來運算。
關于 Frobenius 內積,最關鍵的性質之一是成立恒等式:
也就是說,矩陣的 Frobenius 內積可以轉化為矩陣乘法的跡,并且交換相乘順序不改變結果(不改變跡的結果,但是矩陣乘法的整體結果會改變)。
2.2 對稱正定
接著,來看對稱正定矩陣的一些性質。 是一個對稱正定矩陣,對稱說的是 ,正定說的是對于任意非零向量 ,都有 。可以證明,如果 都是對稱正定矩陣,那么 也都是對稱正定矩陣。如果 , 是可逆陣,那么 是對稱正定的當且僅當 是對稱正定的。
此外還有半正定的概念,指對于任意非零向量 ,都有 ,也就是說可能存在非零向量 使得 。不過考慮到正定矩陣在半正定矩陣中稠密,所以我們不嚴格區分正定和半正定了,統一按照正定矩陣來處理。
對稱正定矩陣有一個重要的性質,那就是它的 SVD 分解跟特征值分解一致,即具有下述形式的分解:
其中 是正交矩陣,而 是對角陣,并且對角線上的元素都是正的。該結果的一個直接推論是:對稱正定矩陣都可以“開平方”,其平方根為 ,其中 是指將對角線上的元素都開平方,可以檢驗平方根矩陣也是對稱正定的。反過來,可以開平方的對稱矩陣,一定也是對稱正定矩陣。
2.3 矩陣求導
最后,在求 Wasserstein 距離的時候,還需要用到一些矩陣求導公式,如果不了解的讀者,可以直接參考維基百科的“Matrix Calculus”[2]。當然,其實也不難,主要用到了:
剩下的可以結合跡的運算公式來派生出來,比如:
KL散度
作為第一個嘗試,我們來算兩個高斯分布的 KL 散度(Kullback-Leibler divergence?[3] )。KL散度算是最常用的分布度量之一了,因為它積分之前需要取對數,這對于指數簇分布來說通常能得到相對簡單的結果。此外它還跟“熵”有著比較緊密的聯系。
3.1 計算結果
兩個概率分布的 KL 散度定義為:
對于兩個正態分布來說,計算結果是:
特別地,當 q 是標準正態分布時,結果簡化為:
3.2 推導過程
從KL散度的定義知道,我們主要把 算出來就行了:
現在,關于跡的恒等式就可以派上用場了:
注意 時,上式就等于n,此時就對應正態分布的熵。所以最終得到:
巴氏距離
然后,我們來看看巴氏距離(Bhattacharyya distance?[4] ),它定義為:
與之相關的還有一個叫做“Hellinger距離[5] ”的概念,定義為 ,展開后就能發現跟巴氏距離本質是等價的。
4.1 計算結果
對于兩個正態分布來說,它們的巴氏距離為:
這里 。可以看到結果是對稱的,這是因為巴氏距離的定義本身就是對稱的。
當兩者之一為標準正態分布時,結果并沒有明顯簡化,所以這里就不單獨寫出來了。
4.2 推導過程
按照定義,兩個正態分布的巴氏距離,是下述積分的負對數:
記 ,積分部分可以換元為:
這里 。按照前面介紹的高斯積分公式(6),積分結果是:
所以最終:
W距離
如果讀者還想看了解更多關于概率散度的內容,可以參考書籍《Statistical Inference Based on Divergence Measures》[6] 。現在我們轉向另一類概率度量——基于最優傳輸的 W 距離(Wasserstein 距離)。
沿用從 Wasserstein 距離、對偶理論到 WGAN 中的記號,W 距離的定義如下:
不同的 會得到不同的結果,為了得到較為簡單的解,這里選擇:
5.1 計算結果
有意思的是,關于兩個正態分布的 W 距離的結果,流傳著兩個不同的版本,這兩個版本都有一定的認知度,但確沒有看到有人明確說明兩者的等價性。兩個版本源于它們不同的證明思路,還被冠以了不同的名字。
5.1.1 版本1
首先第一個流傳相對較廣的版本(很多文獻包括維基百科也使用這個版本):
關于這個結果,有的讀者可能困惑于“怎么關于 p,q 不是對稱的”,事實上,它關于 p,q 是對稱的,因為:
然后我們可以直接驗證 ,所以有 。
5.1.2 版本2
第二個版本的結果是:
這個版本通常被稱為“Fréchet 距離”。GAN 中經常使用的評價指標 FID(Frechet Inception Distance),就是基于這個公式進行計算的。
5.1.3 等價性
事實上,證明兩者的等價性并不難:
然后直接驗證 即可。
5.1.4 特殊情形
特別地,如果 的乘法可以交換,那么將會簡化為非常直觀的形式:
為什么說它非常直觀呢?因為正態分布的參數為 ,所以比較正態分布的差異其實就是比較 的差異,按照機器學習的習慣,一個很容易相當想到的指標是平方誤差:
但從物理角度來看,這個指標是不妥的,因為如果將 看成是長度量綱,那么 就具有長度平方的量綱,所以 和 是具有不同量綱的兩個量,不能相加。而為了使得量綱一致,直觀的想法就是把 “開平方”后再算平方誤差,這就得到了式(32)。
特別地,當q為標準正態分布時,結果簡化為:
5.2 推導過程1
現在介紹第一個證明,主要參考了論文《A class of Wasserstein metrics for probability distributions》[7] 。另外《The distance between two random vectors with given dispersion matrices》[8] 也提供了一個類似的證明,也可以參考。
下面的推導過程則是經過筆者簡化的,相對原論文的證明來說簡單一些,但依然不可避免地會涉及到較多的線性代數知識,我們將分幾個部分介紹。
5.2.1 去均值
不失一般性,我們可以只考慮均值為 0 的分布 p,q。因為如果 p,q 的均值不為 0,那么設對應的均值為 0 的分布為 ,此時有:
該結果意味著:
所以,只需要算出均值都為零時的 Wasserstein 距離,然后加上 就得到了一般情況的結果。
5.2.2 純代數
現在我們假設 p,q 的均值均為 0,然后計算:
其中:
構成聯合分布 的協方差矩陣。我們知道協方差矩陣是正定對陣矩陣,所以從代數的角度看,問題變成了:
已知 為正定對稱矩陣,求 的最大值。
5.2.3 舒爾補
為此,我們需要利用下述關于“舒爾補”的恒等式:
其中對稱矩陣 稱為“舒爾補(Schur Complement)”[9] ,該分解具有 的形式,要想它是正定的,那么 要是正定的,而 已經是正定的,所以 需要是正定的。
5.2.4 分參數
我們嘗試分離參數,即從 中把 解出來。首先移項得到 ,由于 是正定對稱的,所以 也是,從而 也是正定對稱的,那么它具有正定對稱的平方根,即存在正定對稱矩陣 ,使得:
這說明 是正交矩陣,記為 ,那么 。
5.2.5 乘子法
此時,變量分別是 和 ,求 的最大值。我們先固定 ,求取最大值時的 ,此時相當于在 的約束下,求 的最大值,我們用“拉格朗日乘子法” [10]:引入新參數矩陣 ,轉化為下述無約束極值問題:
求導:
首先留意到 是對稱的,因此對應的參數矩陣 也是對稱的,于是我們有:
即 ,所以此時:
5.2.6 不等式
最后需要把 確定下來。回顧 的定義,我們有 ,其中 是正定矩陣。直覺上 時取得最大值,事實上也確實如此,這算是“Weyl 不等式” [11] 的一個直接推論。
根據 Weyl 不等式,如果矩陣 都是正定對稱矩陣,它們的特征值從小到大排列分別為 、 和 ,那么對于任意 ,都有 ,也就是說:
正定對稱矩陣的和的特征值,一一對應地大于它們各自的特征值。
有了這個結論,那就簡單了,設 的特征值為 ,那么它的跡就是 ,對應地, 的特征值為 ,注意 是對稱正定矩陣(對稱是顯然的,而因為它能開平方,所以正定), 也是對稱正定的(因為 是對稱正定的),所以它們的特征值,都不超過它們的和——也就是 的特征值,所以說, 每個特征值的最大值(也就是跡的最大值),在 處取到。
至于 Weyl 不等式的證明,主要利用到了 Rayleigh quotient [12] 和 Courant–Fischer [13] 定理,有興趣了解的讀者自行查閱這兩部分資料后,再查閱 Wely 不等式的證明就好。事實上,熟悉這兩部分內容后,Weyl 不等式基本上就“水到渠成”了。
5.3 推導過程2
這里繼續介紹另一個更為簡單的證明,原始證明可以在[《The Fréchet distance between multivariate normal distributions》](https://core.ac.uk/download/pdf/82269844.pdf)找到。相對而言該證明簡單不少,尤其是不需要太多的純線性代數知識。下面的推導過程依舊是經過筆者進一步簡化的,比原始論文更好理解一些。
在這個推導過程中,“去均值”、“純代數”兩個步驟跟“推導過程1”是一樣的,不再重復。所以,此時問題已經被轉化為:
已知 為正定對稱矩陣,求 的最大值。
5.3.1?分塊陣
由于 是對稱正定矩陣,所以它必然可以表達成 的形式,我們將 表達為分塊矩陣 ,其中 ,此時
對應地有 。
5.3.2 乘子法
在上述參數化之下,問題轉化為:
已知 ,求 的最大值。
這是一個帶約束的最大值問題,我們用“拉格朗日乘子法” [10] :引入新參數矩陣 ,轉化為下述無約束極值問題:
求導:
注意到 和 都是對稱的,所以對應的參數矩陣也是對稱的,此時:
令 ,代入上式得 ,即
而:
文章小結
本文詳細計算了兩個多元正態分布的 KL 散度、巴氏距離和W距離,給出了它們的顯式解析解,這些結果在某些場景下可以作為隱變量的正則項使用,來規范隱變量的分布。此外,本文還可以作為比較有挑戰性的線性代數練習題,供大家參考練習。
參考文獻
[1] https://kexue.fm/archives/3552
[2] https://en.wikipedia.org/wiki/Matrix_calculus
[3] https://en.wikipedia.org/wiki/Kullback%E2%80%93Leibler_divergence
[4] https://en.wikipedia.org/wiki/Bhattacharyya_distance
[5] https://en.wikipedia.org/wiki/Hellinger_distance
[6] https://www.taylorfrancis.com/books/mono/10.1201/9781420034813/statistical-inference-based-divergence-measures-leandro-pardo
[7] https://projecteuclid.org/journals/michigan-mathematical-journal/volume-31/issue-2/A-class-of-Wasserstein-metrics-for-probability-distributions/10.1307/mmj/1029003026.full
[8] https://www.sciencedirect.com/science/article/pii/0024379582901124
[9] https://en.wikipedia.org/wiki/Schur_complement
[10] https://en.wikipedia.org/wiki/Lagrange_multiplier
[11] https://en.wikipedia.org/wiki/Weyl%27s_inequality
[12] https://en.wikipedia.org/wiki/Rayleigh_quotient
[13] https://en.wikipedia.org/wiki/Min-max_theorem
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的两个多元正态分布的KL散度、巴氏距离和W距离的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: u盘怎么装xp电脑系统教程 如何在电脑上
- 下一篇: 联想笔记本xp系统usb启动怎么设置方法