数据标准化 - scale() - Python代码
標(biāo)準(zhǔn)化
去均值,方差規(guī)模化
數(shù)據(jù)分析的過程中,比如線性規(guī)劃這一類的分析,如果有些特征的數(shù)值遠(yuǎn)遠(yuǎn)高于或低于其他數(shù)值,通常稱之為獨(dú)立點(diǎn)、異常值或噪點(diǎn),那么對于受噪點(diǎn)影響較大的模型就無法正確地去學(xué)習(xí)其他特征。
Standardization標(biāo)準(zhǔn)化:將特征數(shù)據(jù)的分布調(diào)整成標(biāo)準(zhǔn)正太分布,也叫高斯分布,過程為兩步:去均值的中心化(均值變?yōu)?);方差的規(guī)模化(方差變?yōu)?)。
在sklearn.preprocessing中有一個(gè)scale方法,可以實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化,該方法默認(rèn)按照列進(jìn)行標(biāo)準(zhǔn)化。
運(yùn)行結(jié)果:
標(biāo)準(zhǔn)化之前的方差: [ 1. 0.5 -0.5 0.5]
標(biāo)準(zhǔn)化之前的標(biāo)準(zhǔn)差: [0.70710678 1.11803399 1.80277564 1.80277564]
標(biāo)準(zhǔn)化結(jié)果:
[[ 0. -1.34164079 1.38675049 1.38675049]
[ 1.41421356 -0.4472136 0.2773501 -1.38675049]
[-1.41421356 0.4472136 -0.2773501 -0.2773501 ]
[ 0. 1.34164079 -1.38675049 0.2773501 ]]
標(biāo)準(zhǔn)化之后的方差: [0. 0. 0. 0.]
標(biāo)準(zhǔn)化之后的標(biāo)準(zhǔn)差: [1. 1. 1. 1.]
數(shù)據(jù)歸一化 MinMaxScaler()/MaxAbsScaler() 文章鏈接
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的数据标准化 - scale() - Python代码的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 字符串处理 - DataFrame文本数
- 下一篇: target java_java元注解