Jensen不等式初步理解及证明
Jensen不等式(Jensen’s inequality)是以丹麥數學家Johan Jensen命名的,它在概率論、機器學習、測度論、統計物理等領域都有相關應用。
在機器學習領域,我目前接觸到的是用Jensen不等式用來證明KL散度大于等于0(以后寫一篇文章總結一下)。
Jensen不等式是和凸函數的定義是息息相關的。
首先介紹什么是凸函數(convec function)。
凸函數
凸函數是一個定義在某個向量空間的凸子集 C(區間)上的實值函數 f,如果在其定義域 C 上的任意兩點 x1,x2x_1,x_2x1?,x2? , 0≤t≤10 \le t \le 10≤t≤1 ,有
tf(x1)+(1?t)f(x2)≥f(tx1+(1?t)x2)(1)tf(x_1)+(1-t)f(x_2) \geq f(tx_1+(1-t)x_2) \tag{1} tf(x1?)+(1?t)f(x2?)≥f(tx1?+(1?t)x2?)(1)
也就是說凸函數任意兩點的割線位于函數圖形上方, 這也是Jensen不等式的兩點形式。
Jensen不等式
若對于任意點集{xi}\{x_i\}{xi?},若 λi≥0\lambda_i \geq 0λi?≥0且 ∑iλi=1\sum_i \lambda_i = 1∑i?λi?=1 ,使用數學歸納法,可以證明凸函數 f(x)f (x)f(x)滿足:
f(∑i=1Mλixi)≤∑i=1Mλif(xi)(2)f(\sum_{i=1}^{M}\lambda_{i}x_{i})\leq\sum_{i=1}^{M}\lambda_{i}f(x_{i}) \tag{2} f(i=1∑M?λi?xi?)≤i=1∑M?λi?f(xi?)(2)
公式(2)被稱為 Jensen 不等式,它是式(1)的泛化形式。
證明如下:
(1) 當i=1,2i=1,2i=1,2時,由凸函數的定義成立
(2) 假設當i=Mi=Mi=M時,公式(2)成立
(3) 現在證明則i=M+1i=M+1i=M+1時,Jensen不等式也成立:
f(∑i=1M+1λixi)=f(λM+1xM+1+∑i=1Mλixi)=f(λM+1xM+1+(1?λM+1)∑i=1Mηixi)(3)\begin{aligned} f(\sum_{i=1}^{M+1} \lambda_{i}x_{i})&=f(\lambda_{M+1}x_{M+1}+\sum_{i=1}^{M}\lambda_{i}x_{i})\\ &=f(\lambda_{M+1}x_{M+1}+(1-\lambda_{M+1})\sum_{i=1}^{M}\eta_{i}x_{i}) \tag{3} \end{aligned} f(i=1∑M+1?λi?xi?)?=f(λM+1?xM+1?+i=1∑M?λi?xi?)=f(λM+1?xM+1?+(1?λM+1?)i=1∑M?ηi?xi?)?(3)
其中
ηi=λi1?λM+1\eta_{i}=\frac {\lambda_{i}}{1-\lambda_{M+1}} ηi?=1?λM+1?λi??
由公式(1)的結論,公式(3)滿足:
f(∑i=1M+1λixi)≤λM+1f(xM+1)+(1?λM+1)f(∑i=1M+1ηixi))f(\sum_{i=1}^{M+1}\lambda_{i}x_{i})\leq\lambda_{M+1}f(x_{M+1})+(1-\lambda_{M+1})f(\sum_{i=1}^{M+1}\eta_{i}x_{i})) f(i=1∑M+1?λi?xi?)≤λM+1?f(xM+1?)+(1?λM+1?)f(i=1∑M+1?ηi?xi?))
注意到 λi\lambda_iλi?滿足:
∑i=1M+1λi=1\sum_{i=1}^{M+1}\lambda_{i}=1 i=1∑M+1?λi?=1
因此:
∑i=1Mλi=1?λM+1\sum_{i=1}^{M}\lambda_{i}=1-\lambda_{M+1} i=1∑M?λi?=1?λM+1?
因此ηi\eta_iηi? 也滿足:
∑iMηi=∑1Mλi1?λM+1(5)\sum_i^M\eta_{i}=\frac{\sum_1^M\lambda_{i}}{1-\lambda_{M+1}} \tag{5} i∑M?ηi?=1?λM+1?∑1M?λi??(5)
由公式(2)和(5)得到:
∑iMf(ηixi)≤∑i=1Mηif(xi)(6)\sum_{i}^{M}f(\eta_{i}x_{i})\leq\sum_{i=1}^M\eta_{i}f(x_i) \tag{6} i∑M?f(ηi?xi?)≤i=1∑M?ηi?f(xi?)(6)
由(4)和(6):
f(∑iM+1λixi)≤λM+1f(xM+1)+(1?λM+1)∑i=1Mηif(xi)=∑i=1M+1λif(xi)f(\sum_{i}^{M+1}\lambda_{i}x_{i})\leq\lambda_{M+1}f(x_{M+1})+(1-\lambda_{M+1})\sum_{i=1}^{M}\eta_{i}f(x_{i})=\sum_{i=1}^{M+1}\lambda_{i}f(x_{i}) f(i∑M+1?λi?xi?)≤λM+1?f(xM+1?)+(1?λM+1?)i=1∑M?ηi?f(xi?)=i=1∑M+1?λi?f(xi?)
因此i=M+1i=M+1i=M+1時,Jensen不等式也成立綜上,Jensen不等式成立。
在概率論中,如果把λi\lambda_iλi?看成取值為 xi{x_i}xi? 的離散變量 xxx 的概率分布,那么公式(2)就可以寫成
f(E[x])≤E[f(x)]f(E[x])\leq E[f(x)] f(E[x])≤E[f(x)]其中,E[?]E[·]E[?]表示期望。
對于連續變量,Jensen不等式給出了積分的凸函數值和凸函數的積分值間的關系:f(∫xp(x)dx)≤∫f(x)p(x)dxf(\int xp(x)dx)\leq \int f(x)p(x)dx f(∫xp(x)dx)≤∫f(x)p(x)dx
參考文獻:
- [1] PRML
- [2] wikipedia Jensen’s inequality
- 以上內容來自:清雅的數學筆記_Jensen不等式初步理解及證明【知乎】
總結
以上是生活随笔為你收集整理的Jensen不等式初步理解及证明的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 图论及其应用:第三次作业
- 下一篇: 信息论里的信息熵到底是什么含义?互信息的