香农辅助定理、KL散度和Jensen不等式
香農(nóng)輔助定理、KL散度和Jensen不等式
- 香農(nóng)輔助定理
- KL散度
- 琴生(Jensen)不等式
香農(nóng)輔助定理
對于任意兩個信息數(shù)相同的信源XXX和YYY。有
?∑i=1Np(xi)log?2p(xi)≤?∑i=1Np(xi)log?2p(yi)-\sum_{i=1}^N p(x_i)\log_2p(x_i) \leq -\sum_{i=1}^N p(x_i)\log_2p(y_i) ?i=1∑N?p(xi?)log2?p(xi?)≤?i=1∑N?p(xi?)log2?p(yi?)
其中∑i=1Np(xi)=∑i+1Np(yi)=1\sum_{i=1}^N p(x_i)=\sum_{i+1}^N p(y_i)=1∑i=1N?p(xi?)=∑i+1N?p(yi?)=1
通俗的來說,任一概率分布對其他概率分布的自信息量取數(shù)學(xué)期望,必大于等于本身的熵,當(dāng)且僅當(dāng)XXX和YYY的概率分布完全相同時取等號。不等式的左邊是XXX的信源熵,即無損壓縮條件下的最短平均編碼長度。不等式的右側(cè),以信源YYY的概率分布p(y)p(y)p(y)得到的最優(yōu)編碼,來為概率分布為p(x)p(x)p(x)的信源XXX的字符進行編碼而計算得的平均碼長。
KL散度
KL散度又稱為相對熵,是用來體現(xiàn)兩個概率分布之間差別的非對稱性度量,即KL(P∣∣Q)≠KL(Q∣∣P)KL(P||Q)\neq KL(Q||P)KL(P∣∣Q)?=KL(Q∣∣P)。相對熵可以作為一些優(yōu)化算法的損失函數(shù)來度量模型概率分布和真實分布之間的差距。
設(shè)P(x)P(x)P(x)和Q(x)Q(x)Q(x)是隨機變量XXX上的兩個概率分布,則在離散和連續(xù)的情況下,KL散度的定義為:
KL(P∣∣Q)=∑P(x)ln?P(x)Q(x)KL(P∣∣Q)=∫P(x)ln?P(x)Q(x)dxKL(P||Q)=\sum P(x) \ln \frac{P(x)}{Q(x)}\\ KL(P||Q)=\int P(x)\ln\frac{P(x)}{Q(x)}dx KL(P∣∣Q)=∑P(x)lnQ(x)P(x)?KL(P∣∣Q)=∫P(x)lnQ(x)P(x)?dx
值得注意的是,香農(nóng)輔助定理稍加變形就成為了KL散度的形式:
?∑i=1Np(xi)log?2p(xi)≤?∑i=1Np(xi)log?2p(yi)∑i=1Np(xi)log?2p(xi)p(yi)≥01ln?2×∑i=1Np(xi)ln?p(xi)p(yi)≥0∑i=1Np(xi)ln?p(xi)p(yi)≥0-\sum_{i=1}^{N} p(x_i)\log_2p(x_i) \leq -\sum_{i=1}^N p(x_i)\log_2p(y_i) \\ \sum_{i=1}^Np(x_i)\log_2\frac{p(x_i)}{p(y_i)} \geq 0\\ \frac{1}{\ln2} \times \sum_{i=1}^Np(x_i)\ln\frac{p(x_i)}{p(y_i)}\geq 0\\ \sum_{i=1}^Np(x_i)\ln\frac{p(x_i)}{p(y_i)}\geq 0 ?i=1∑N?p(xi?)log2?p(xi?)≤?i=1∑N?p(xi?)log2?p(yi?)i=1∑N?p(xi?)log2?p(yi?)p(xi?)?≥0ln21?×i=1∑N?p(xi?)lnp(yi?)p(xi?)?≥0i=1∑N?p(xi?)lnp(yi?)p(xi?)?≥0
所以,證明香農(nóng)輔助定理等價于證明KL散度為正值。
琴生(Jensen)不等式
首先說明一點,本文所說的凸函數(shù)和凹函數(shù)采用的是國際上的習(xí)慣稱呼。以一元函數(shù)為例,曲線往下凸的函數(shù)稱為凸函數(shù),曲線往上凸的稱為凹函數(shù)。這與國內(nèi)教材的習(xí)慣相反。
Jensen不等式是關(guān)于凸函數(shù)性質(zhì)的不等式,也可以類推得到關(guān)于凹函數(shù)性質(zhì)的不等式。對于凸函數(shù)曲線f(x)f(x)f(x)而言,有
tf(x1)+(1?t)f(x2)≥f(tx1+(1?t)x2)0≤t≤1tf(x_1)+(1-t)f(x_2) \geq f(tx_1+(1-t)x_2)\\ 0\leq t\leq1 tf(x1?)+(1?t)f(x2?)≥f(tx1?+(1?t)x2?)0≤t≤1
這是Jensen不等式的兩點形式。
對于任意點集{xi}\{x_i\}{xi?},若λi≥0,∑λi=1\lambda_i\geq0,\sum \lambda_i=1λi?≥0,∑λi?=1,f(x)f(x)f(x)是凸函數(shù),有
f(∑λixi)≤∑λif(xi)f(\sum\lambda_ix_i)\leq\sum\lambda_if(x_i) f(∑λi?xi?)≤∑λi?f(xi?)
此結(jié)論是Jensen不等式兩點形式的推廣,可以由數(shù)學(xué)歸納法簡單證明。當(dāng)λi\lambda_iλi?取p(xi)p(x_i)p(xi?)時,上式變?yōu)?#xff1a;
f(E(x))≤E(f(x))f(E(x))\leq E(f(x)) f(E(x))≤E(f(x))
應(yīng)用微分的思想,可以由離散形式的Jensen不等式轉(zhuǎn)變?yōu)檫B續(xù)形式。若∫g(x)=1,g(x)≥0\int g(x)=1,g(x)\geq0∫g(x)=1,g(x)≥0且f(x)f(x)f(x)是凸函數(shù)。有
f(∫g(x)h(x)dx)≤∫g(x)f(h(x))dxf(\int g(x) h(x) dx)\leq\int g(x)f(h(x))dx f(∫g(x)h(x)dx)≤∫g(x)f(h(x))dx
這是Jensen不等式的一般形式,對于凹函數(shù)只需要變號即可。
應(yīng)用Jensen不等式可以快速證明KL散度非負,即香農(nóng)輔助定理成立,無需贅言。
總結(jié)
以上是生活随笔為你收集整理的香农辅助定理、KL散度和Jensen不等式的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 从jensen不等式到相对熵的非负性性
- 下一篇: 瑞利信道建模 matlab程序原理到实现