标准化、归一化等的适用范围
特征處理方法總覽:
標(biāo)準(zhǔn)化和歸一化介紹:
(1)標(biāo)準(zhǔn)化
標(biāo)準(zhǔn)化需要計(jì)算特征的均值和標(biāo)準(zhǔn)差,公式表達(dá)為:
使用preproccessing庫(kù)的StandardScaler類(lèi)對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的代碼如下
(2)歸一化
使用preproccessing庫(kù)的Normalizer類(lèi)對(duì)數(shù)據(jù)進(jìn)行歸一化的代碼如下:
區(qū)間縮放法其實(shí)是歸一化的一種:
區(qū)間縮放法的思路有多種,常見(jiàn)的一種為利用兩個(gè)最值進(jìn)行縮放,公式表達(dá)為:
使用preproccessing庫(kù)的MinMaxScaler類(lèi)對(duì)數(shù)據(jù)進(jìn)行區(qū)間縮放的代碼如下:
標(biāo)準(zhǔn)化和歸一化適用范圍
幾條說(shuō)明:
(1)如果對(duì)輸出結(jié)果范圍有要求,用歸一化。
(2)如果數(shù)據(jù)較為穩(wěn)定,不存在極端的最大最小值,用歸一化。
(3)如果數(shù)據(jù)存在異常值和較多噪音,用標(biāo)準(zhǔn)化,可以間接通過(guò)中心化避免異常值和極端值的影響。
(4)SVM、KNN(K近鄰)、神經(jīng)網(wǎng)絡(luò)、PCA等模型必須先標(biāo)準(zhǔn)化、歸一化
??優(yōu)先使用標(biāo)準(zhǔn)化。對(duì)于輸出有要求時(shí)再?lài)L試別的方法,如歸一化或者更加復(fù)雜的方法。很多方法都可以將輸出范圍調(diào)整到[0, 1],如果我們對(duì)于數(shù)據(jù)的分布有假設(shè)的話(huà),更加有效的方法是使用相對(duì)應(yīng)的概率密度函數(shù)來(lái)轉(zhuǎn)換。
舉個(gè)例子:
在大論文的計(jì)算中,我需要不斷增加預(yù)測(cè)集的數(shù)量,但相對(duì)于訓(xùn)練集增加的個(gè)數(shù)相當(dāng)少,此時(shí)只能用標(biāo)準(zhǔn)化。如果采用區(qū)間縮放法(歸一化),則Max,Min值可能會(huì)變化,進(jìn)而改變縮放的空間,但標(biāo)準(zhǔn)化是均值和標(biāo)準(zhǔn)差所以幾乎不變。
歸一化作用
詳見(jiàn)鏈接
歸一化的作用.
總結(jié)
以上是生活随笔為你收集整理的标准化、归一化等的适用范围的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: matlab随机函数
- 下一篇: css的过渡效果