【浅谈】样本方差的分母“n”为什么要改为“n-1”
按照直觀的理解,在給定一系列樣本值的時候,計算樣本均值和樣本方差所除以的應(yīng)該是樣本數(shù)nnn,而事實上我們計算樣本均值的時候是除以nnn,計算樣本方差的時候是除以n?1n-1n?1. 這個反直覺的計算公式曾一度令我困惑不已,好在接觸到數(shù)理統(tǒng)計課程,終于使我醍醐灌頂. 于是我結(jié)合[1, 2, 3]的相關(guān)部分,以初學(xué)者的角度學(xué)習(xí)并總結(jié)成此文,希望能為有類似困惑的同學(xué)提供參考. 因本人水平有限,文章難免有不足之處,煩請讀者指出,聯(lián)系方式:penguinpi@163.com.
目錄
- 樣本均值與樣本方差
- 估計量的無偏性
- 自由度的一種解釋
- 總結(jié)
- 參考文獻
樣本均值與樣本方差
對于給定的若干個樣本X1,X2,?,XnX_1, X_2, \cdots, X_nX1?,X2?,?,Xn?,假設(shè)它們是獨立同分布的,且對于每個Xi(i=1,2,?,n)X_i(i = 1, 2, \cdots, n)Xi?(i=1,2,?,n),其均值為μ\muμ,方差為σ2\sigma^2σ2. 當我們不確定μ\muμ和σ2\sigma^2σ2的具體值的時候,我們希望通過這nnn個樣本來計算樣本均值MnM_nMn?和樣本方差Sn2S_n^2Sn2?,并盡可能地逼近真實值. 根據(jù)均值和方差的概念,直觀上我們會這樣計算樣本均值和樣本方差:
Mn=X1+X2+?+Xnn,Sn2=∑i=1n(Xi?Mn)2n.M_n = \frac{X_1 + X_2 + \cdots + X_n}{n},\\ S_n^2 = \frac{\sum_{i=1}^{n}\left(X_i - M_n\right)^2}{n}. Mn?=nX1?+X2?+?+Xn??,Sn2?=n∑i=1n?(Xi??Mn?)2?.
然而,與直覺相違背的是,把樣本方差定義為Sn2S_n^2Sn2?并不是最佳方案,更優(yōu)的樣本方差定義應(yīng)該是將分母的nnn改為n?1n-1n?1,這里我們記作S^n2\hat{S}_n^2S^n2?,即
S^n2=∑i=1n(Xi?Mn)2n?1,\hat{S}_n^2 = \frac{\sum_{i=1}^{n}\left(X_i - M_n\right)^2}{n - 1}, S^n2?=n?1∑i=1n?(Xi??Mn?)2?,
我的困惑正是從這個n?1n-1n?1開始. 好在我們可以從理論上討論Sn2S_n^2Sn2?和S^n2\hat{S}_n^2S^n2?分別回歸到什么值,由此分析修改前后帶來的影響,從而理解為什么作此修改. 換句話說,我們可以對兩種不同方式定義的樣本方差求期望,以檢驗到底哪一個更加合適. 不妨先看看直觀定義的樣本方差的期望
E[Sn2]=E[∑i=1n(Xi?Mn)2n]=E[∑i=1n(Xi?Mn)2]n=E[∑i=1n(Xi2?2XiMn+Mn2)]n=E[∑i=1nXi2?2nMn2+nMn2]n=∑i=1nE[Xi2]?nE[Mn2]n=nE[Xi2]?nE[Mn2]n=E[Xi2]?E[Mn2],\begin{aligned} E[S_n^2] & = E\left[\frac{\sum_{i=1}^{n}(X_i - M_n)^2}{n}\right]\\ & = \frac{E\left[\sum_{i=1}^{n}(X_i - M_n)^2\right]}{n}\\ & = \frac{E\left[\sum_{i=1}^{n}(X_i^2 - 2X_iM_n + M_n^2)\right]}{n}\\ & = \frac{E\left[\sum_{i=1}^{n}X_i^2 - 2nM_n^2 + nM_n^2\right]}{n}\\ & = \frac{\sum_{i=1}^{n}E[X_i^2] - nE[M_n^2]}{n}\\ & = \frac{nE[X_i^2] - nE[M_n^2]}{n}\\ & = E[X_i^2] - E[M_n^2], \end{aligned} E[Sn2?]?=E[n∑i=1n?(Xi??Mn?)2?]=nE[∑i=1n?(Xi??Mn?)2]?=nE[∑i=1n?(Xi2??2Xi?Mn?+Mn2?)]?=nE[∑i=1n?Xi2??2nMn2?+nMn2?]?=n∑i=1n?E[Xi2?]?nE[Mn2?]?=nnE[Xi2?]?nE[Mn2?]?=E[Xi2?]?E[Mn2?],?
根據(jù)隨機變量的方差與矩的關(guān)系,有
var(X)=E[X2]?(E[X])2,var(X) = E[X^2] - (E[X])^2, var(X)=E[X2]?(E[X])2,
且樣本均值MnM_nMn?滿足
E[Mn]=E[X1+X2+?+Xnn]=E[X1]+E[X2]+?+E[Xn]n=nμn=μ,var(Mn)=var(X1+X2+?+Xnn)=var(X1)+var(X2)+?+var(Xn)n2=nσ2n2=σ2n,E[M_n] = E\left[\frac{X_1 + X_2 + \cdots + X_n}{n}\right] = \frac{E[X_1] + E[X_2] + \cdots + E[X_n]}{n} = \frac{n\mu}{n} = \mu,\\ var(M_n) = var\left(\frac{X_1 + X_2 + \cdots + X_n}{n}\right) = \frac{var(X_1) + var(X_2) + \cdots + var(X_n)}{n^2} = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n}, E[Mn?]=E[nX1?+X2?+?+Xn??]=nE[X1?]+E[X2?]+?+E[Xn?]?=nnμ?=μ,var(Mn?)=var(nX1?+X2?+?+Xn??)=n2var(X1?)+var(X2?)+?+var(Xn?)?=n2nσ2?=nσ2?,
所以
E[Sn2]=(var(Xi)+(E[Xi])2)?(var(Mn)+(E[Mn])2)=(σ2+μ2)?(σ2n+μ2)=n?1nσ2.\begin{aligned} E[S_n^2] & = \left(var(X_i) + \left(E[X_i]\right)^2\right) - \left(var(M_n) + \left(E[M_n]\right)^2\right)\\ & = \left(\sigma^2 + \mu^2\right) - \left(\frac{\sigma^2}{n} + \mu^2\right)\\ & = \frac{n-1}{n}\sigma^2. \end{aligned} E[Sn2?]?=(var(Xi?)+(E[Xi?])2)?(var(Mn?)+(E[Mn?])2)=(σ2+μ2)?(nσ2?+μ2)=nn?1?σ2.?
果然,按照我們直覺定義出來的樣本方差Sn2S_n^2Sn2?是不會回歸到真實方差σ2\sigma^2σ2的,其存在一定的偏差,盡管在樣本數(shù)nnn非常大的時候能忽略這個偏差. 不過我們很容易就可以避免這個理論上的偏差,只需要在上式兩邊同乘系數(shù)n/(n?1)n / (n-1)n/(n?1),等式的右邊僅有σ2\sigma^2σ2,等式左邊正是修改后的樣本方差S^n2\hat{S}_n^2S^n2?.
與其說是計算公式,不如說是在直覺的基礎(chǔ)上,根據(jù)理論推敲稍作修改得到的定義. 事實上,數(shù)學(xué)的定義并非天然形成,而是經(jīng)過反復(fù)的推敲和修改,才得以成形.
估計量的無偏性
若我們進一步思考,所謂樣本均值MnM_nMn?,不過是將一系列的隨機變量X1,X2,?,XnX_1, X_2, \cdots, X_nX1?,X2?,?,Xn?經(jīng)過簡單的加和求平均得到的,即從一些已知的隨機變量通過一個映射得到的一個新的隨機變量,我們將這個新的隨機變量稱作估計量,如果其具有統(tǒng)計意義,也稱作統(tǒng)計量. 對于估計量,我們當然希望它越準確越好,也就是希望估計量能回歸真實值,此時我們稱這樣的估計量是無偏的. 下面以MnM_nMn?簡單介紹估計量的相關(guān)術(shù)語[1].
- 估計量的期望值依賴于真實的參數(shù),即E[Mn]E[M_n]E[Mn?](也記作Eμ[Mn]E_\mu[M_n]Eμ?[Mn?])依賴于真實的μ\muμ.
- 若Eμ[Mn]=μE_\mu[M_n] = \muEμ?[Mn?]=μ對于μ\muμ所有可能的取值都成立,則稱MnM_nMn?無偏.
- 若lim?n→∞Eμ[Mn]=μ\lim_{n\to\infty}E_\mu[M_n] = \mulimn→∞?Eμ?[Mn?]=μ對于μ\muμ所有可能的取值都成立,則稱MnM_nMn?漸近無偏.
顯然,MnM_nMn?是無偏的,而直覺定義的Sn2S_n^2Sn2?是漸進無偏的,經(jīng)修改后的S^n2\hat{S}_n^2S^n2?是無偏的. 無偏并不意味著估計量在任何時候都能給出正確無誤的估計,而是在大量次數(shù)使用該估計量并取平均時,能以十足的把握無限逼近被估計的量. 如果沒有無偏性,則無論使用多少次該估計量,其平均也會與真實值保持一定距離——這個距離就是系統(tǒng)誤差[2]. 由此可見將S^n2\hat{S}_n^2S^n2?定義為樣本方差是多么明智的選擇.
自由度的一種解釋
通過前兩節(jié)的討論,我們對分母n?1n-1n?1的來龍去脈已經(jīng)非常清楚了,但這究竟是巧合還是具有一定規(guī)律的呢?或許牽扯到自由度的概念,茆詩松老先生等人在書[3]中對自由度的概念最初是這么引入的
χ2(n)\chi^2(n)χ2(n)分布中的參數(shù)nnn就體現(xiàn)在:nnn是獨立的標準正態(tài)變量的個數(shù),因此人們稱這個參數(shù)nnn為自由度.
而陳希孺老先生在書[2]中證明S^n2\hat{S}_n^2S^n2?的無偏性之后這樣解釋道
在這里我們還可以對“自由度”這個概念賦予另一種解釋:一共有nnn個樣本,有nnn個自由度. 用S2S^2S2估計方差σ2\sigma^2σ2,自由度本應(yīng)為nnn. 但總體均值μ\muμ也未知,用MnM_nMn?去估計,用掉了一個自由度,故只剩下n?1n-1n?1個自由度.
乍一看是比較抽象的,不妨再回顧我們是如何計算樣本均值和樣本方差的
{Mn=X1+X2+?+XnnS^n2=∑i=1n(Xi?Mn)2n?1,\left\{\begin{aligned} M_n & = \frac{X_1 + X_2 + \cdots + X_n}{n}\\ \hat{S}_n^2 & = \frac{\sum_{i=1}^{n}(X_i - M_n)^2}{n - 1} \end{aligned}\right., ????????Mn?S^n2??=nX1?+X2?+?+Xn??=n?1∑i=1n?(Xi??Mn?)2??,
就像解方程組一樣,我們先用一系列的樣本“定住”了MnM_nMn?才得以計算Sn2S_n^2Sn2?,而換個角度看,這一系列的樣本Xi(i=1,2,?,n)X_i(i= 1, 2, \cdots, n)Xi?(i=1,2,?,n)也同樣被MnM_nMn?給限制住了. 也就是在已知MnM_nMn?和n?1n-1n?1個樣本值的情況下,剩余的111個樣本值已經(jīng)被確定了. 由此自由度衰減為n?1n-1n?1.
那么是不是當我們已知具體的μ\muμ,就不必用這些樣本估計MnM_nMn?,進而不必用MnM_nMn?計算Sn2S_n^2Sn2?,最終不會丟掉這個自由度,即可以用Sn2S_n^2Sn2?作為真實方差σ2\sigma^2σ2的無偏估計量呢?答案是肯定的,如下
E[Sn2]=E[∑i=1n(Xi?μ)2n]=E[∑i=1n(Xi2?2Xiμ+μ2)]n=E[∑i=1nXi2?2nMnμ+nμ2]n=∑i=1nE[Xi2]?2nμE[Mn]+nμ2n=n(var(Xi)+(E[Xi])2)?2nμ2+nμ2n=nσ2+nμ2?2nμ2+nμ2n=σ2.\begin{aligned} E[S_n^2] & = E\left[\frac{\sum_{i=1}^{n}(X_i - \mu)^2}{n}\right]\\ & = \frac{E\left[\sum_{i=1}^{n}(X_i^2 - 2 X_i \mu + \mu^2)\right]}{n}\\ & = \frac{E\left[\sum_{i=1}^{n}X_i^2 - 2 n M_n \mu + n \mu^2\right]}{n}\\ & = \frac{\sum_{i=1}^{n}E[X_i^2] - 2 n \mu E[M_n] + n \mu^2}{n}\\ & = \frac{n\left(var(X_i) + \left(E[X_i]\right)^2\right) - 2 n \mu^2 + n \mu^2}{n}\\ & = \frac{n \sigma^2 + n \mu^2 - 2 n \mu^2 + n \mu^2}{n}\\ & = \sigma^2. \end{aligned} E[Sn2?]?=E[n∑i=1n?(Xi??μ)2?]=nE[∑i=1n?(Xi2??2Xi?μ+μ2)]?=nE[∑i=1n?Xi2??2nMn?μ+nμ2]?=n∑i=1n?E[Xi2?]?2nμE[Mn?]+nμ2?=nn(var(Xi?)+(E[Xi?])2)?2nμ2+nμ2?=nnσ2+nμ2?2nμ2+nμ2?=σ2.?
故此時Sn2S_n^2Sn2?是一個無偏估計. 通過對自由度的理解,我們能夠建立更好的數(shù)學(xué)直覺,判斷出何時為n?1n-1n?1,何時為nnn,甚至n+1n+1n+1. 盡管嚴謹?shù)淖C明不能只依賴于數(shù)學(xué)直覺,但對我們學(xué)習(xí)更多的估計量(統(tǒng)計量)以及推斷它們的性質(zhì)是大有脾益的.
總結(jié)
我們從樣本均值和樣本方差的計算公式為切入點,探究其為何會如此定義,之后更一般地介紹了估計量與無偏性,明確樣本方差定義之優(yōu)是因為修改后的樣本均值是無偏的估計量,最后從自由度的角度再次思考分母n?1n-1n?1的含義,有助于培養(yǎng)我們的數(shù)學(xué)直覺,更好地通過自由度理解其他復(fù)雜估計量(統(tǒng)計量)的系數(shù).
參考文獻
[1] [美]伯特瑟卡斯(Bertsekas, D. P.), [美]齊齊克利斯(Tsitsiklis, J. N.). 概率導(dǎo)論[M]. 鄭忠國, 童行偉譯. 北京:人民郵電出版社, 2016.
[2] 陳希孺. 概率論與數(shù)理統(tǒng)計[M]. 合肥:中國科學(xué)技術(shù)大學(xué)出版社, 2009.
[3] 茆詩松, 程依明, 濮曉龍. 概率論與數(shù)理統(tǒng)計[M]. 北京:高等教育出版社, 2019.
總結(jié)
以上是生活随笔為你收集整理的【浅谈】样本方差的分母“n”为什么要改为“n-1”的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: geetest极验空间推理验证码破解与研
- 下一篇: fork函数结果分析