UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式
UA MATH567 高維統計I 概率不等式1 Hoeffding不等式與Chernoff不等式
- Hoeffding不等式
- Chernoff不等式
MATH 564系列我們已經介紹了幾個基本的概率不等式:Markov不等式、Chebyshev不等式、Chernoff不等式,這一類不等式有一個共同的名字,叫concentration inequalities,因為它們反映的是概率集中到分布的中心(比如均值)的程度,所以我覺得翻譯成集中度不等式是還可以的,中文的wiki用的是集中不等式,我覺得含義也差不多。在概率不等式0中我們討論了Chebyshev不等式,它在大樣本時非常不sharp,所以這一講的目標是基于Markov不等式推出更sharp一點的不等式,也就是Hoeffding不等式與Chernoff不等式。
Hoeffding不等式
假設Xi∈[mi,Mi],i=1,?,NX_i \in [m_i,M_i],i=1,\cdots,NXi?∈[mi?,Mi?],i=1,?,N, ?t>0\forall t>0?t>0, 下面的不等式被稱為Hoeffding不等式,
P(∑i=1N(Xi?EXi)≥t)≤exp?(?2t2∑i=1N(Mi?mi)2)P \left( \sum_{i=1}^N (X_i - EX_i)\ge t \right) \le \exp \left( -\frac{2t^2}{\sum_{i=1}^N (M_i - m_i)^2} \right)P(i=1∑N?(Xi??EXi?)≥t)≤exp(?∑i=1N?(Mi??mi?)22t2?)
完整的證明可以參考Hoeffding (1963)的文章,這里證明一個特殊情況,Xi~iidBer(1/2)X_i\sim_{iid}Ber(1/2)Xi?~iid?Ber(1/2) (對稱Bernoulli分布):
P(∑i=1NaiXi≥t)≤exp?(?t22∑i=1Nai2)P \left( \sum_{i=1}^N a_iX_i\ge t \right) \le \exp \left( -\frac{t^2}{2\sum_{i=1}^N a_i^2} \right)P(i=1∑N?ai?Xi?≥t)≤exp(?2∑i=1N?ai2?t2?)
證明這個特例是因為接下來用到的證明方法是用來證明類似Hoeffding不等式的一般性思路。
證明
考慮函數g(t)=eλtg(t)=e^{\lambda t}g(t)=eλt,對隨機變量∑i=1NaiXi\sum_{i=1}^N a_iX_i∑i=1N?ai?Xi?使用Markov不等式,
P(∑i=1NaiXi≥t)≤e?λtEexp?(λ∑i=1NaiXi)P \left( \sum_{i=1}^N a_iX_i\ge t \right) \le e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right)P(i=1∑N?ai?Xi?≥t)≤e?λtEexp(λi=1∑N?ai?Xi?)
因為λ\lambdaλ的任意性,我們可以選擇一個最小的上界:
min?λe?λtEexp?(λ∑i=1NaiXi)\min_{\lambda} e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right)λmin?e?λtEexp(λi=1∑N?ai?Xi?)
接下來我們要做的就是找到這個最值,計算
e?λtEexp?(λ∑i=1NaiXi)=e?λt∏i=1NEeλaiXi=e?λt∏i=1Neλai+e?λai2≤e?λt∏i=1Neλ2ai2/2=exp?(?λt+λ22∑i=1Nai2)e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right) = e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda a_i X_i} \\ = e^{-\lambda t}\prod_{i=1}^N \frac{e^{\lambda a_i}+e^{-\lambda a_i}}{2} \le e^{-\lambda t}\prod_{i=1}^N e^{\lambda^2 a_i^2/2}\\=\exp \left( -\lambda t+\frac{\lambda^2}{2}\sum_{i=1}^N a_i^2 \right) e?λtEexp(λi=1∑N?ai?Xi?)=e?λti=1∏N?Eeλai?Xi?=e?λti=1∏N?2eλai?+e?λai??≤e?λti=1∏N?eλ2ai2?/2=exp(?λt+2λ2?i=1∑N?ai2?)
需要注意的是第二行我們把這個上界又放大了一點,主要的目的是找一個更容易計算最小值的形式:
min?exp?(?λt+λ22∑i=1Nai2)=e?λtEexp?(λ∑i=1NaiXi)\min \exp \left( -\lambda t+\frac{\lambda^2}{2}\sum_{i=1}^N a_i^2 \right) = e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right)minexp(?λt+2λ2?i=1∑N?ai2?)=e?λtEexp(λi=1∑N?ai?Xi?)
證畢
Hoeffding不等式在統計學習中具有廣泛的應用,比如監督學習理論中Principle of empirical risk minimization的一致性推導,Boosting的運行次數估計等。
Chernoff不等式
在UA MATH564 概率論 概率不等式中,我們介紹了Chernoff上界。給定具有某種特定分布形式的隨機變量,我們可以用Legendre變換的思路計算出隨機變量尾部概率的Chernoff上界。Chernoff不等式是Chernoff上界的一個特例,考慮互相獨立的Bernoulli變量Xi~Ber(pi)X_i \sim Ber(p_i)Xi?~Ber(pi?),定義SN=∑i=1NXiS_N = \sum_{i=1}^N X_iSN?=∑i=1N?Xi?,μ=ESN\mu = ES_Nμ=ESN?,對于t>μt>\mut>μ,
P(SN≥t)≤e?μ(eμ/t)tP(S_N \ge t) \le e^{-\mu} (e\mu/t)^tP(SN?≥t)≤e?μ(eμ/t)t對于t<μt<\mut<μ,
P(SN≤t)≤e?μ(eμ/t)tP(S_N\le t) \le e^{-\mu} (e\mu/t)^tP(SN?≤t)≤e?μ(eμ/t)t
為了展示證明方法,這里給出上界的證明,當然也可以用564介紹的計算Chernoff bound的方法。
證明
根據Hoeffding不等式的證明過程,
P(SN≥t)≤e?λt∏i=1NEeλXiP(S_N\ge t) \le e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda X_i}P(SN?≥t)≤e?λti=1∏N?EeλXi?
下面計算:
∏i=1NEeλXi=∏i=1N[1+(eλ?1)pi]≤∏i=1Nexp?[(eλ?1)pi]=exp?[(eλ?1)μ]\prod_{i=1}^NEe^{\lambda X_i} =\prod_{i=1}^N[ 1+(e^{\lambda}-1)p_i] \le \prod_{i=1}^N \exp [(e^{\lambda}-1)p_i] = \exp[(e^{\lambda}-1)\mu]i=1∏N?EeλXi?=i=1∏N?[1+(eλ?1)pi?]≤i=1∏N?exp[(eλ?1)pi?]=exp[(eλ?1)μ]
中間一步用了Bernoulli不等式。因此
P(SN≥t)≤e?λtexp?[(eλ?1)μ]P(S_N\ge t) \le e^{-\lambda t}\exp[(e^{\lambda}-1)\mu]P(SN?≥t)≤e?λtexp[(eλ?1)μ]
這個上界在λ=ln?(t/μ)\lambda = \ln(t/\mu)λ=ln(t/μ)時取最小值,因此
P(SN≥t)≤e?λt∏i=1NEeλXiP(S_N\ge t) \le e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda X_i}P(SN?≥t)≤e?λti=1∏N?EeλXi?
證畢
Hoeffding不等式與Chernoff不等式它們的上界關于ttt都是指數級遞減的,這種上界就比Chebyshev那種二次的遞減更sharp。
總結
以上是生活随笔為你收集整理的UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA SIE545 优化理论基础1 凸分
- 下一篇: UA SIE545 优化理论基础9 优先