KL-divergence
KL-divergence,俗稱KL距離,常用來衡量兩個概率分布的距離。
根據shannon的信息論,給定一個字符集的概率分布,我們可以設計一種編碼,使得表示該字符集組成的字符串平均需要的比特數最少。假設這個字符集是X,對x∈X,其出現概率為P(x),那么其最優編碼平均需要的比特數等于這個字符集的熵:
H(X)=∑x∈XP(x)log[1/P(x)]
在同樣的字符集上,假設存在另一個概率分布Q(X)。如果用概率分布P(X)的最優編碼(即字符x的編碼長度等于log[1/P(x)]),來為符合分布Q(X)的字符編碼,那么表示這些字符就會比理想情況多用一些比特數。KL-divergence就是用來衡量這種情況下平均每個字符多用的比特數,因此可以用來衡量兩個分布的距離。即:
DKL(Q||P)=∑x∈XQ(x)[log(1/P(x))]?-?∑x∈XQ(x)[log[1/Q(x)]]=∑x∈XQ(x)log[Q(x)/P(x)]
由于-log(u)是凸函數,因此有下面的不等式
DKL(Q||P)?=?-∑x∈XQ(x)log[P(x)/Q(x)]?=?E[-logP(x)/Q(x)]?≥?-logE[P(x)/Q(x)]?=?-log∑x∈XQ(x)P(x)/Q(x)?=?0
即KL-divergence始終是大于等于0的。當且僅當兩分布相同時,KL-divergence等于0。
轉載于:https://www.cnblogs.com/wonglou/p/3741306.html
總結
以上是生活随笔為你收集整理的KL-divergence的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: LDAP 后缀操作
- 下一篇: HDU 4832 Chess 排列组合