UA MATH566 统计理论10 Bootstrap简介
UA MATH566 統計理論10 Bootstrap簡介
Bootstrap是用來替代基于CDF的一些統計計算的手段:當真實的CDF(記為F∈FF \in \mathbb{F}F∈F,F\mathbb{F}F是CDF的函數空間)未知時,我們選擇用經驗分布函數(記為F^n\hat{F}_nF^n?)代替真實的CDF,輔以重抽樣的方法,用來估計隨機變量的函數的期望、隨機變量的分位點等統計量。根據F^n\hat{F}_nF^n?的不同構造方法,Bootstrap分為Parametric Bootstrap和Non-parametric Bootstrap。
假設X=(X1,?,Xn)X=(X_1,\cdots,X_n)X=(X1?,?,Xn?)是FFF的一組簡單隨機樣本,總體是定義在(Ω,F,P)(\Omega,\mathcal{F},P)(Ω,F,P)中的隨機變量,FFF的參數為θ∈Θ\theta \in \Thetaθ∈Θ,假設θ^\hat{\theta}θ^是參數的估計量,則可以根據這個估計量來構造經驗分布函數:
F^n(x)=F(x∣θ^)\hat{F}_n(x) = F(x|\hat{\theta})F^n?(x)=F(x∣θ^)
基于這種構造的Bootstrap叫做Parametric Bootstrap。如果直接根據樣本構造經驗分布函數:
F^n(x)=1n∑i=1nI{Xi∈(?∞,x]}\hat{F}_n(x) = \frac{1}{n}\sum_{i=1}^n I\{X_i \in (-\infty,x]\}F^n?(x)=n1?i=1∑n?I{Xi?∈(?∞,x]}
基于這種構造的Bootstrap叫做Non-parametric Bootstrap。
假設我們想要用Bootstrap估計的量是r=R(X,F)r=R(X,F)r=R(X,F):
R(X,F):X×F→RR(X,F): \mathcal{X} \times \mathbb{F} \to \mathbb{R}R(X,F):X×F→R
這里X\mathcal{X}X是樣本空間,可以理解成nnn個概率空間的直積,這個映射的含義是我們要估計的這個rrr依賴于樣本和分布函數?,F在記X?X^*X?是重抽樣的樣本(以F^n\hat{F}_nF^n?為分布函數的重抽樣),則rrr的Bootstrap估計是
r^Bootstrap=R(X?,F^n)\hat{r}^{Bootstrap} = R(X^*,\hat{F}_n)r^Bootstrap=R(X?,F^n?)
下面r^Bootstrap\hat{r}^{Bootstrap}r^Bootstrap簡單記作r^\hat{r}r^。
例子
光學中有一個Snell定律:光在兩個均勻透明介質交接處發生折射的現象,假設光從介質1中射入介質2中,光在介質1中的傳播速度是v1v_1v1?,入射角是θ1\theta_1θ1?;光在介質2中的傳播速度為v2v_2v2?,出射角為θ2\theta_2θ2?,則
v1sin?θ1=v2sin?θ2v_1 \sin \theta_1 = v_2 \sin \theta_2v1?sinθ1?=v2?sinθ2?
假設數量β\betaβ表示光在介質2中的傳播速度是β\betaβ個光速,則介質1是空氣時,
β=sin?θ1sin?θ2\beta = \frac{\sin \theta_1}{\sin \theta_2}β=sinθ2?sinθ1??
現在我們做了多組獨立重復試驗,試圖測量光在介質2中的傳播速度。下面是試驗的數據和估計:(用的我老師的slides的截圖)
根據這些測量數據估計出來的結果是水在介質2中的傳播速度是0.7363個光速,稱這個估計量為Snell估計。我們可以用bootstrap方法估計這個估計量的置信區間與方差:
這里的for循環就是做boostrap的過程,我們計算了1萬個boostrap估計量β^\hat{\beta}β^?。循環體第一句話是用sample()對theta1做重抽樣,第二句話是用sample()對theta2做重抽樣,第三句話是計算第iii個bootstrap估計量。用summary()看一下這一萬個估計量的描述性統計,發現我們用Snell定律得到的那個估計差不多是在中位數的水平。我們把這一萬個估計量當成是真實的β\betaβ的一組樣本,可以根據這組樣本的經驗分布函數做區間估計,以及計算Snell估計量的方差。
根據quantile()函數返回的分位點,我們可以發現99%置信區間為[0.7019,0.7681],95%置信區間為[0.7102,0.7607]。根據sd()的返回值,Snell估計的方差為0.01288。
不用bootstrap方法也可以近似Snell估計的誤差,我們可以用Delta方法:如果這個測量是多元變量,則Gaussian誤差YYY,Y~Nn(0,Σ)Y\sim N_n(0,\Sigma)Y~Nn?(0,Σ),做一階Taylor展開為
g(X)≈g(X?)+Dg(X?)Yg(X) \approx g(X^*) + Dg(X^*)Yg(X)≈g(X?)+Dg(X?)Y
對式子兩邊求期望與方差:
Eg(X)≈Eg(X?)Var[g(X)]≈[g′(X?)]2Var(Y)=Dg(X?)Σ[Dg(X?)]TEg(X) \approx Eg(X^*) \\ Var[g(X)] \approx [g'(X^*)]^2 Var(Y) = Dg(X^*) \Sigma [Dg(X^*)]^TEg(X)≈Eg(X?)Var[g(X)]≈[g′(X?)]2Var(Y)=Dg(X?)Σ[Dg(X?)]T
這里用qnorm()簡單判斷一下正態性:
對比發現正態性還是可以接受的。所以可以用delta方法:
總結
以上是生活随笔為你收集整理的UA MATH566 统计理论10 Bootstrap简介的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: UA MATH ECE636 信息论10
- 下一篇: UA MATH575B 数值分析下 统计