从jensen不等式到相对熵的非负性性
從jensen不等式到相對熵的非負(fù)性性
?前言:在上上次博客我們證明觀測到的歸一化的頻率就是最大似然估計的解時,我們用到了相對熵恒大于等于0的性質(zhì),那么本文就當(dāng)是擴(kuò)展一下知識,主要以證明和介紹為主。
? 首先我們簡要介紹一下熵的概念。“熵”這一概念并不僅僅存在于物理化學(xué)中,還應(yīng)用于信息論中。熵是結(jié)果不確定度的一種度量。shannon熵定義為:
H(x)=?∑iP(xi)log?P(xi)H ( x ) = - \sum _ { i } P \left( x _ { i } \right) \log P \left( x _ { i } \right)H(x)=?∑i?P(xi?)logP(xi?)
其中X為隨機(jī)變量,它在K個事件x1x_{1}x1?,x2x_{2}x2?,xkx_{k}xk?的離散集合上有概率P(xix_{i}xi?)
?ps:我們可以試著證明一下當(dāng)其實均勻分布時,它的熵值最大。(思路提示:可以用用最小二乘法。具體詳見下篇文章。)
? 相對熵又稱KL散度,信息散度,是兩個概率分布間差異的非對稱性度量。令P(X),Q(X)是隨機(jī)變量X的概率分布,則在其實離散型隨機(jī)變量的情況下,相對熵為:
H(P∥Q)=∑iP(xi)log?P(xi)Q(xi)H ( P \| Q ) = \sum _ { i } P \left( x _ { i } \right) \log \frac { P \left( x _ { i } \right) } { Q \left( x _ { i } \right) }H(P∥Q)=∑i?P(xi?)logQ(xi?)P(xi?)?
? 故我們觀察相對熵的形式可以發(fā)現(xiàn),它可以看做是對數(shù)幾率(計分矩陣中的分值)的期望,即將P(X)看做是在匹配模型M中的殘基a,b的聯(lián)配概率,而Q(X)看做是無關(guān)模型中的殘基a,b的獨(dú)立出現(xiàn)的概率。故相對熵可作為模型的期望分值。
? 回歸本文的主題,即證明相對熵的正定性。因為證明的過程中用到了jensen
不等式,所以我們先證明一下jensen不等式。
? jensen不等式在概率論、機(jī)器學(xué)習(xí)、測度論等有著廣泛的應(yīng)用。
?證明之前我們先了解凸函數(shù)的性質(zhì):
tf(x1)+(1?t)f(x2)≥f(tx1+(1?t)x2)t f \left( x _ { 1 } \right) + ( 1 - t ) f \left( x _ { 2 } \right) \geq f \left( t x _ { 1 } + ( 1 - t ) x _ { 2 } \right)tf(x1?)+(1?t)f(x2?)≥f(tx1?+(1?t)x2?)
x1x_{1}x1?,x2x_{2}x2?是凸函數(shù)上的任意兩點,且t屬于[0,1]
證明過程如下:
? 若對于任意的點集{xix_{i}xi?},若λi\lambda_{i}λi?>0,且∑iλi=1\sum _ { i } \lambda _ { i } = 1∑i?λi?=1, 請證明凸函數(shù)f(x)滿足:
f(∑i=1Mλixi)≤∑i=1Mλif(xi)f \left( \sum _ { i = 1 } ^ { M } \lambda _ { i } x _ { i } \right) \leq \sum _ { i = 1 } ^ { M } \lambda _ { i } f \left( x _ { i } \right)f(∑i=1M?λi?xi?)≤∑i=1M?λi?f(xi?)
數(shù)學(xué)歸納法進(jìn)行證明:
當(dāng)i=1或2時,由凸函數(shù)的性質(zhì)一易知該不等式成立。
假設(shè)當(dāng)i=M時,不等式成立。
現(xiàn)在證當(dāng)i=M+1時,該不等式也成立。即證明: f(∑i=1M+1λixi)≤∑i=1M+1λif(xi)f \left( \sum _ { i = 1 } ^ { M+1 } \lambda _ { i } x _ { i } \right) \leq \sum _ { i = 1 } ^ { M+1 } \lambda _ { i } f \left( x _ { i } \right)f(∑i=1M+1?λi?xi?)≤∑i=1M+1?λi?f(xi?) ?我們首先處理不等號左邊的式子:
f(∑i=1M+1λixi)f \left( \sum _ { i = 1 } ^ { M+1} \lambda _ { i } x _ { i } \right)f(∑i=1M+1?λi?xi?) = f(∑i=1Mλixi+λM+1xM+1)f \left( \sum _ { i = 1 } ^ { M } \lambda _ { i } x _ { i } + \lambda _ { M + 1 } x _ { M+1 } \right)f(∑i=1M?λi?xi?+λM+1?xM+1?)
為了符合凸函數(shù)中t,(1-t)的形式,我們令ai=λi1?λM+1a _ { i } = \frac { \lambda _ { i } } { 1 - \lambda_{M+1}}ai?=1?λM+1?λi??
故 f(∑i=1M+1λixi)f \left( \sum _ { i = 1 } ^ { M+1} \lambda _ { i } x _ { i } \right)f(∑i=1M+1?λi?xi?)=f(λM+1xM+1+(1?λM+1)∑i=1Maixi)f \left( \lambda _ { M + 1 } x _ { M + 1 } + \left( 1 - \lambda _ { M + 1 } \right) \sum _ { i = 1 } ^ { M } \ a _ { i } x _ { i } \right)f(λM+1?xM+1?+(1?λM+1?)∑i=1M??ai?xi?)
所以根據(jù)凸函數(shù)的性質(zhì)對等號右邊的式子進(jìn)一步處理可得:
f(∑i=1M+1λixi)≤λM+1f(xM+1)+(1?λM+1)f(∑i=1Maixi)f \left( \sum _ { i = 1 } ^ { M + 1 } \lambda _ { i } x _ { i } \right) \leq \lambda _ { M + 1 } f \left( x _ { M + 1 } \right) + \left( 1 - \lambda _ { M + 1 } \right) f \left( \sum _ { i = 1 } ^ { M } \ a _ { i } x _ { i } \right)f(∑i=1M+1?λi?xi?)≤λM+1?f(xM+1?)+(1?λM+1?)f(∑i=1M??ai?xi?)
根據(jù)我們的假設(shè)當(dāng)i=M,不等式成立得:
f(∑i=1maixi)?∑i=1Maif(xi)f \left( \sum _ { i = 1 } ^ { m } a _ { i } x _ { i } \right) \leqslant \sum _ { i = 1 } ^ { M } a _ { i } f \left( x _ { i } \right)f(∑i=1m?ai?xi?)?∑i=1M?ai?f(xi?)
所以將上一個式子帶入上上個式子中得:
f(∑i=1M+1λixi)≤λM+1f(xM+1)+(1?λM+1)∑i=1Maif(xi)f \left( \sum _ { i = 1 } ^ { M + 1 } \lambda _ { i } x _ { i } \right) \leq \lambda _ { M + 1 } f \left( x _ { M + 1 } \right) + \left( 1 - \lambda _ { M + 1 } \right) \sum _ { i = 1 } ^ { M } a _ { i } f \left( x _ { i } \right)f(∑i=1M+1?λi?xi?)≤λM+1?f(xM+1?)+(1?λM+1?)∑i=1M?ai?f(xi?)
又因為ai=λi1?λM+1a _ { i } = \frac { \lambda _ { i } } { 1 - \lambda_{M+1}}ai?=1?λM+1?λi?? 代入得:
f(∑i=1M+1λixi)?λM+1f(xM+1)+∑i=1Mλif(xi)f \left( \sum _ { i = 1 } ^ { M+1 } \lambda _ { i } x _ { i } \right) \leqslant \lambda _ { M + 1 } f \left( x _ { M+1 } \right) + \sum _ { i = 1 } ^ { M }\lambda_{i} f \left( x _ { i } \right)f(∑i=1M+1?λi?xi?)?λM+1?f(xM+1?)+∑i=1M?λi?f(xi?)=∑i=1M+1λif(xi)\sum _ { i = 1 } ^ { M+1 } \lambda _ { i } f \left( x _ { i } \right)∑i=1M+1?λi?f(xi?)
?因此當(dāng)i=M+1時,jensen不等式亦成立。
綜上,jensen不等式成立。同理可證,但函數(shù)為凹函數(shù)時,jensen不等式的符號相反。
?jensen不等式可以用來證明均值不等式、Holder不等式以及柯西不等式。同時jensen不等式可以用來證明相對熵的正定性。
All right, 我們已經(jīng)證明了jensen不等式成立,可以放心的使用啦。
?相對熵的非負(fù)性性證明:
證明:H(P∥Q)=∑iP(xi)log?P(xi)Q(xi)H ( P \| Q ) = \sum _ { i } P \left( x _ { i } \right) \log \frac { P \left( x _ { i } \right) } { Q \left( x _ { i } \right) }H(P∥Q)=∑i?P(xi?)logQ(xi?)P(xi?)? >=0
即證:-H(P∥Q)=∑iP(xi)log?P(xi)Q(xi)H ( P \| Q ) = \sum _ { i } P \left( x _ { i } \right) \log \frac { P \left( x _ { i } \right) } { Q \left( x _ { i } \right) }H(P∥Q)=∑i?P(xi?)logQ(xi?)P(xi?)? <=0
即證: ∑iP(xi)log?Q(xi)+∑iP(xi)log?1P(xi)\sum _ { i } P \left( x _ { i } \right) \log Q \left( x _ { i } \right) + \sum _ { i } P \left( x _ { i } \right) \log \frac { 1 } { P \left( x _ { i } \right) }∑i?P(xi?)logQ(xi?)+∑i?P(xi?)logP(xi?)1? <=0
因為將P(x)看做是自變量,故log?1P(xi)\log \frac { 1 } { P \left( x _ { i } \right) }logP(xi?)1?可看做是凹函數(shù)。
故在凹函數(shù)下,根據(jù)jensen不等式:
f(∑i=1Mλixi)?∑i=1Mλif(xi)f \left( \sum _ { i = 1 } ^ { M } \lambda _ { i } x _ { i } \right) \leqslant \sum _ { i = 1 } ^ { M } \lambda _ { i } f \left( x _ { i } \right)f(∑i=1M?λi?xi?)?∑i=1M?λi?f(xi?)
故:
∑iP(xi)log?1P(xi)\sum _ { i } P \left( x _ { i } \right) \log \frac { 1 } { P \left( x _ { i } \right) }∑i?P(xi?)logP(xi?)1?<=log?1\log1log1=0
即可證:
-H(P∥Q)=∑iP(xi)log?P(xi)Q(xi)H ( P \| Q ) = \sum _ { i } P \left( x _ { i } \right) \log \frac { P \left( x _ { i } \right) } { Q \left( x _ { i } \right) }H(P∥Q)=∑i?P(xi?)logQ(xi?)P(xi?)? <=0
證得:
H(P∥Q)=∑iP(xi)log?P(xi)Q(xi)H ( P \| Q ) = \sum _ { i } P \left( x _ { i } \right) \log \frac { P \left( x _ { i } \right) } { Q \left( x _ { i } \right) }H(P∥Q)=∑i?P(xi?)logQ(xi?)P(xi?)?>=0
參考資料:劉勇. 關(guān)于詹森不等式證明不等式問題[J]. 科教文匯(29期):136-136.
總結(jié)
以上是生活随笔為你收集整理的从jensen不等式到相对熵的非负性性的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 华为首款血压手表WATCH D测评
- 下一篇: 香农辅助定理、KL散度和Jensen不等