方差、标准差、均方差、均方误差
方差是在概率論和統(tǒng)計(jì)學(xué)中衡量隨機(jī)變量或一組數(shù)據(jù)時(shí)離散程度的度量。概率論中方差用來度量隨機(jī)變量和其數(shù)學(xué)期望(即均值)之間的偏離程度。統(tǒng)計(jì)中的方差(樣本方差)是每個(gè)樣本值與全體樣本值的平均數(shù)之差的平方值的平均數(shù)。方差可以用來描述變量的波動程度。
方差在統(tǒng)計(jì)學(xué)和概率分布中各有不同的定義,并有不同的公式。在統(tǒng)計(jì)學(xué)中,方差用來計(jì)算每一個(gè)變量(觀察值)與總體均數(shù)之間的差異。為避免出現(xiàn)離均差總和為零,離均差平方和受樣本含量的影響,統(tǒng)計(jì)學(xué)采用平均離均差平方和來描述變量的變異程度。總體方差計(jì)算公式:
σ 的平方表示總體方差,X 表示變量,μ 表示總體的均值,N 表示總體樣本數(shù)量。在實(shí)際項(xiàng)目中,總體均值難以得到時(shí),應(yīng)用樣本統(tǒng)計(jì)量替代總體參數(shù),經(jīng)校正后,樣本方差的計(jì)算公式:
σ 的平方表示樣本方差,X 表示變量,{X_i … X_n} 表示樣本均值,N 表示樣本數(shù)量。 之所以除以 N-1 而不是 N,是因?yàn)檫@樣能使我們以較小的樣本集更好地逼近總體的標(biāo)準(zhǔn)差,即統(tǒng)計(jì)上所謂的 「無偏估計(jì)」。由于方差是數(shù)據(jù)的平方,與檢測值本身相差太大,難以直觀的衡量,所以常用方差開根號換算回來,就成了標(biāo)準(zhǔn)差(Standard Deviation)用 σ 表示,公式如下:
例如存在以下 python 代碼:
123< 大專欄 方差、標(biāo)準(zhǔn)差、均方差、均方誤差/div>45 |
import numpy as np data1 = [10, 30, 40, 50, 10]data2 = [5, 20, 25, 80, 10]print(np.mean(data1), np.var(data1), np.std(data1))print(np.mean(data2), np.var(data2), np.std(data2)) |
輸出結(jié)果:
12 |
28.0 256.0 16.028.0 726.0 26.94438717061496 |
可以看出兩組數(shù)據(jù)的均值都是 28.0 但是方差以及標(biāo)準(zhǔn)差都是不一樣,方差或標(biāo)準(zhǔn)差的值越大反應(yīng)了數(shù)據(jù)波動就越大,反之則越穩(wěn)定。
標(biāo)準(zhǔn)差在中文壞境中也被稱為均方差,但不同于均方誤差(mean squared error),均方誤差是樣本數(shù)據(jù)值偏離真實(shí)樣本數(shù)據(jù)值的平方和的平均數(shù),也即誤差平方和的平均數(shù),計(jì)算公式形式上接近方差,它的開方叫均方根誤差,均方根誤差才和標(biāo)準(zhǔn)差形式上接近。例如用 X 表示樣本值,x 表示真實(shí)值,那么均方誤差可用以下公式表示:
那么均分根誤差可用以下公式表示:
在機(jī)器學(xué)習(xí)中均方誤差可以用來作為模型的損失函數(shù),用來預(yù)測和回歸,均方誤差越小,說明模型預(yù)測的越準(zhǔn)確,反之則越不準(zhǔn)確。總的來說,均方差是數(shù)據(jù)樣本與均值的關(guān)系,而均方誤差是數(shù)據(jù)樣本與真實(shí)值之間的關(guān)系,在實(shí)際工作中根據(jù)需要來選擇使用均方差還是均方誤差。
總結(jié)
以上是生活随笔為你收集整理的方差、标准差、均方差、均方误差的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 孕妇可以喝茉莉花茶吗?孕妇喝茉莉花茶的效
- 下一篇: solr 倒排索引(转载)