正态分布的峰度和偏度分别为_ML中的正态分布
機(jī)器學(xué)習(xí)的本質(zhì)就是用概率分布來(lái)解釋世界上的所有事情,并用各種各樣的模型和算法來(lái)逼近目標(biāo)的概率分布,而概率分布的核心就是正態(tài)分布。正態(tài)分布又叫高斯分布,是機(jī)器學(xué)習(xí)理論中最常見(jiàn)的分布。
正態(tài)分布流行的原因只有一個(gè):簡(jiǎn)單。
概率分布和正態(tài)分布
想要構(gòu)建一個(gè)預(yù)測(cè)模型,那么需要:
- 了解目標(biāo)變量的基本性質(zhì),手段是重復(fù)試驗(yàn)
- 根據(jù)試驗(yàn)結(jié)果確定,需要預(yù)測(cè)的變量是一個(gè)離散值還是一個(gè)連續(xù)值
- 為可能的備選值分配概率,比如概率為0的值就是理論上不會(huì)出現(xiàn)的值
簡(jiǎn)而言之,重復(fù)大量的獨(dú)立試驗(yàn),分別記錄試驗(yàn)結(jié)果,根據(jù)這些值作圖,得到的曲線(曲面)就是預(yù)測(cè)目標(biāo)的概率分布曲線(曲面)。概率分布依賴于樣本的矩,比如平均值、標(biāo)準(zhǔn)差、偏度及峰度。本文所述正態(tài)分布,就是常見(jiàn)的概率分布模型之一。
正態(tài)分布的圖像,就是一條倒鐘形曲線,樣本的平均值、眾數(shù)及中位數(shù)是相等的,那么該變量就是正態(tài)分布的。
正態(tài)分布之所以簡(jiǎn)單,在于其只依賴于兩個(gè)參數(shù),即樣本的均值與方差,也就是一階矩和二階矩,這也讓近似正態(tài)分布的參數(shù)估計(jì)十分簡(jiǎn)單精確。
為什么是正態(tài)分布
這個(gè)問(wèn)題的數(shù)理根據(jù)是中心極限定理,該定律揭示了隨機(jī)現(xiàn)象的關(guān)鍵性質(zhì):平穩(wěn)結(jié)果的穩(wěn)定性,即當(dāng)樣本量N趨于無(wú)窮時(shí),N個(gè)抽樣樣本的的均值的分布趨于正態(tài)分布,該定理對(duì)總體分布不做要求,即無(wú)論何種分布都服從該定理。
同時(shí),正態(tài)分布還十分便于進(jìn)行假設(shè)檢驗(yàn),比如有名的
原則。同時(shí),符合正態(tài)分布的數(shù)據(jù)還有一個(gè)好處,就是正態(tài)分布的組合(加減乘除)依然符合正態(tài)分布。正態(tài)分布的轉(zhuǎn)換
為了得到正態(tài)分布,有時(shí)候需要對(duì)樣本進(jìn)行一系列轉(zhuǎn)換,下面給出幾種:
2.Box-cox變換
Box-cox變換是一種廣義冪變換方法,可以應(yīng)對(duì)連續(xù)的響應(yīng)變量不滿足正態(tài)分布的情況,其原理是引入一個(gè)參數(shù),通過(guò)對(duì)該參數(shù)進(jìn)行估計(jì)進(jìn)而確定需要的數(shù)據(jù)變換形式,一般形式為:
式中
是引入的參數(shù),該參數(shù)的確定是通過(guò)一系列樣本 來(lái)估計(jì)一個(gè)滿足該過(guò)程可以用scipy包中的stats.boxcox方法實(shí)現(xiàn)。
3.YEO-JOHNSON變換
改變換同樣是一種冪變換,具有冪變換的一般性質(zhì):縮小隨機(jī)變量的異方差性(heteroscedasticity)并放大其正態(tài)性(normality),從而達(dá)到將其向正態(tài)分布轉(zhuǎn)換的目的。該變換在形式上做出變化,使其能夠應(yīng)用在0和負(fù)值情況下,是box-cox變換的拓展。修改過(guò)的變換形式為:
sklearn中提供了該方法。
sklearn.preprocessing.PowerTransformer(method=’yeo-johnson’, standardize=True, copy=True)
在機(jī)器學(xué)習(xí)問(wèn)題中,盡量不要在不進(jìn)行變換的情況下假設(shè)變量服從正態(tài)分布。
超強(qiáng)干貨來(lái)襲 云風(fēng)專訪:近40年碼齡,通宵達(dá)旦的技術(shù)人生總結(jié)
以上是生活随笔為你收集整理的正态分布的峰度和偏度分别为_ML中的正态分布的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 安卓机更新系统会卡吗_【ios13更新】
- 下一篇: 结合html做界面_Spark UI界面