数据标准化的方法与意义
含義
數(shù)據(jù)標準化和歸一化存在區(qū)別
數(shù)據(jù)歸一化是數(shù)據(jù)標準化的一種典型做法,即將數(shù)據(jù)統(tǒng)一映射到[0,1]區(qū)間上.
數(shù)據(jù)的標準化是指將數(shù)據(jù)按照比例縮放,使之落入一個特定的區(qū)間.
意義
求解需要
比如在SVM中處理分類問題是又是需要進行數(shù)據(jù)的歸一化處理,不然會對準確率產(chǎn)生很大的影響,具體點說,比如避免出現(xiàn)因為數(shù)值過大導致c,g取值超過尋優(yōu)范圍
除此之外,最明顯的是在神經(jīng)網(wǎng)絡中的影響,主要有四個層面
- 有利于初始化的進行
- 避免給梯度數(shù)值的更新帶來數(shù)值問題
- 有利于學習率數(shù)值的調(diào)整
- 搜索軌跡:加快尋找最優(yōu)解速度
具體情況請參考:神經(jīng)網(wǎng)絡為什么要歸一化:
http://blog.csdn.net/fontthrone/article/details/74064971
2. 加快尋找最優(yōu)解(加快收斂速度)
沒有歸一化前,尋找最優(yōu)解的過程:
歸一化后的過程:
3. 無量綱化(業(yè)務上需求上的):
指去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位或者量級的指標能夠進行和加權.
比如身高與體重,房子數(shù)量與收入等.
4. 數(shù)值問題
不歸一化的數(shù)值,比如浮點數(shù)可能會產(chǎn)生數(shù)值不相等的問題.
5. 數(shù)值范圍減小對許多算法在純粹的數(shù)值計算上都有一定加速作用(個人看法,雖然影響不大,但效果還是有的)
常用公式
又名離差標準化,是對原始數(shù)據(jù)的線性轉(zhuǎn)化,公式如下
含義: max : 樣本最大值; min: 樣本最小值;
問題: 當有新數(shù)據(jù)加入時需要重新進行數(shù)據(jù)歸一化
2. z-score 標準化(zero-mean normalization)
又名標準差標準化,歸一化后的數(shù)據(jù)呈正態(tài)分布,即均值為零,標準差為一公式如下:
其中μ為所有樣本數(shù)據(jù)的均值,σ為所有樣本數(shù)據(jù)的標準差。與離差標準化的不同之處在于,離差標準化僅僅僅僅對原數(shù)據(jù)的的方差與均差進行了倍數(shù)縮減,而標準差標準化則使標準化的數(shù)據(jù)方差為一。這對許多的算法更加有利,但是其缺點在于假如原始數(shù)據(jù)沒有呈高斯分布,標準化的數(shù)據(jù)分布效果并不好。
3. atan反正切函數(shù)標準化
公式如下:
問題: 數(shù)據(jù)必須大于零,大于零的函數(shù)將會被映射到[-1,0]上
atan函數(shù)圖像如下:
4. log函數(shù)標準化
公式如下:
問題:
a . 數(shù)據(jù)必須大于等于一
b. 如果數(shù)值大于10**10(十的十次方),那么映射的數(shù)據(jù)將大于一
解決問題b 的方案,改變公式以類似于 ” min-max標準化的方式 “, 如下:
max: 樣本最大值
通過 ” /log10(max) ” 值得方式,可以保證所有樣本能夠正確的映射到[0,1]空間,
總結(jié)
以上是生活随笔為你收集整理的数据标准化的方法与意义的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 梯度下降与delta法则
- 下一篇: Python运行异常 Original