Bootstrap统计学方法简介以及中心极限定理
生活随笔
收集整理的這篇文章主要介紹了
Bootstrap统计学方法简介以及中心极限定理
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
一、概念
- Bootstrap 一詞出自英文習(xí)語(yǔ)“pull yourself up by your bootstraps”。它的隱含意是“improve your situation by your own efforts”,即“通過(guò)你自己的努力(而非他人幫助)來(lái)解決困難改善處境”。因此,Bootstrap 一詞就代表了“自力更生”;
- 與參數(shù)估計(jì)比較,Bootstrap 意味著我們僅僅通過(guò)使用手頭上的樣本數(shù)據(jù)而不對(duì)總體的分布做任何假設(shè)(比如傳統(tǒng)方法中的正態(tài)分布假設(shè)),來(lái)計(jì)算樣本統(tǒng)計(jì)量在估計(jì)總體統(tǒng)計(jì)量時(shí)的誤差;
- Bootstrap 原則指出:“Bootstrap 樣本統(tǒng)計(jì)量 x ̄?\overline{x}^*x? 圍繞原始樣本統(tǒng)計(jì)量 x ̄\overline{x}x 的變化(簡(jiǎn)稱為 x ̄?\overline{x}^*x? 的變化)”是“原始樣本統(tǒng)計(jì)量 x ̄\overline{x}x 圍繞總體統(tǒng)計(jì)量 μ\muμ 的變化(簡(jiǎn)稱為 x ̄\overline{x}x 的變化)”的一個(gè)很好的近似。
二、工作原理
Bootstrap對(duì)原始數(shù)據(jù)集進(jìn)行重抽樣,創(chuàng)建模擬數(shù)據(jù)數(shù)據(jù)集,其抽樣方法具有如下特點(diǎn):
- 每次抽樣對(duì)于每個(gè)樣本具有相同的概率,具有隨機(jī)抽取每個(gè)原始數(shù)據(jù)點(diǎn)以將其包含在重抽樣數(shù)據(jù)集中的可能性;
- 屬于"有放回"的抽樣方式,某樣本可以多次出現(xiàn)在重抽樣的數(shù)據(jù)集中;
- 該過(guò)程將創(chuàng)建與原始數(shù)據(jù)集大小相同的重抽樣數(shù)據(jù)集。
三、與傳統(tǒng)方法的比較
- 計(jì)算置信區(qū)間的方法為傳統(tǒng)的Normal Theory方法,其背后存有強(qiáng)大假設(shè):中心極限定理和正態(tài)分布。如果未知分布不規(guī)則未知或樣本數(shù)不足(本例樣本量只有7),則中心極限定理指出的均值近似為正態(tài)分布便難以成立,而基于t分布計(jì)算出來(lái)的均值置信區(qū)間也不夠準(zhǔn)確;
- 分布未知及樣本量不足時(shí),傳統(tǒng)的Normal Theory方法局限性很大,使得我們?cè)谇蠼庵眯艆^(qū)間的很多問(wèn)題面前舉步維艱,Bootstrap方法在計(jì)算統(tǒng)計(jì)量的置信區(qū)間時(shí)大有可為;
- 基于大數(shù)據(jù)思維,Bootstrap方法得出的真值的置信區(qū)間相對(duì)更窄( 依然未超限度),從統(tǒng)計(jì)意義上進(jìn)一步降低了假陽(yáng)性;
- 對(duì)于小數(shù)據(jù)集,bootstrap效果通常很好;
- 若樣本的潛在分布未知,或存在離群點(diǎn),或樣本量過(guò)小,以及沒(méi)有其它合適的參數(shù)方法時(shí),bootstrap將是獲取置信區(qū)間以及進(jìn)行假設(shè)檢驗(yàn)的一種有效方法。
題外:
什么是中心極限定理(Central Limit Theorem)
中心極限定理指的是給定一個(gè)任意分布的總體。我每次從這些總體中隨機(jī)抽取 n 個(gè)抽樣,一共抽 m 次。 然后把這 m 組抽樣分別求出平均值。 這些平均值的分布接近正態(tài)分布。
- 我們先舉個(gè)栗子?
現(xiàn)在我們要統(tǒng)計(jì)全國(guó)的人的體重,看看我國(guó)平均體重是多少。當(dāng)然,我們把全國(guó)所有人的體重都調(diào)查一遍是不現(xiàn)實(shí)的。所以我們打算一共調(diào)查1000組,每組50個(gè)人。 然后,我們求出第一組的體重平均值、第二組的體重平均值,一直到最后一組的體重平均值。中心極限定理說(shuō):這些平均值是呈現(xiàn)正態(tài)分布的。并且,隨著組數(shù)的增加,效果會(huì)越好。 最后,當(dāng)我們?cè)侔?000組算出來(lái)的平均值加起來(lái)取個(gè)平均值,這個(gè)平均值會(huì)接近全國(guó)平均體重。
- 其中要注意的幾點(diǎn):
- 總體本身的分布不要求正態(tài)分布
上面的例子中,人的體重是正態(tài)分布的。但如果我們的例子是擲一個(gè)骰子(平均分布),最后每組的平均值也會(huì)組成一個(gè)正態(tài)分布。(神奇!) - 樣本每組要足夠大,但也不需要太大
取樣本的時(shí)候,一般認(rèn)為,每組大于等于30個(gè),即可讓中心極限定理發(fā)揮作用。
總結(jié)
以上是生活随笔為你收集整理的Bootstrap统计学方法简介以及中心极限定理的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。