数据的规范化,归一化,标准化,正则化
? ??數據的規范化,歸一化,標準化,正則化,這幾個破詞整得我頭暈,首先這些詞就沒規范好,對數據做實驗更暈,網上狂搜一陣后,發現數據歸一化,標準化,正則化,還是有差別
數據規范化
??一種是針對數據庫的解釋?
??規范化理論把關系應滿足的規范要求分為幾級,滿足最低要求的一級叫做第一范式(1NF),在第一范式的基礎上提出了第二范式(2NF),在第二范式的基礎上又提出了第三范式(3NF),以后又提出了BCNF范式,4NF,5NF。范式的等級越高,應滿足的約束集條件也越嚴格。
? ? ???另一種是就是對數據而言,一直想把數據的規范化的概念與歸一化,標準化,正則化區分清楚。糾結一陣后個人認為,數據的規范化包含了歸一化,標準化,正則化,是一個統稱(也有人把標準化做為統稱,)。針對不同的問題作用也不同。
1 數據規范化
? ? 數據規范化是數據挖掘中數據變換的一種方式,數據變換將數據轉換或統一成適合于挖掘的形式。而數據規范化是指將被挖掘對象的屬性數據按比例縮放,使其落入一個小的特定區間(如[-1,1]或[0,1])。
? ?對屬性值進行規范化常用于涉及神經網絡或距離度量的分類算法和聚類算法中。比如使用神經網絡向后傳播算法進行分類挖掘時,對訓練元組中度量每個屬性的輸入值進行規范化有助于加快學習階段的速度。對于基于距離度量相異度的方法,數據規范化可以讓所有的屬性具有相同的權重。
???數據規范化的常用方法有三種:按小數定標規范化、最小-最大值規范化和z-score規范化。
(1) 最小-最大規范化對原始數據進行線性變換。
zi=xi-xmin/xmax-xmin
其中:zi為指標的標準分數,xi為某鎮某指標的指標值,xmax為全部鎮中某指標的最大值,xmin為全部鎮中某指標的最小
(2) z-score規范化也稱零-均值規范化。屬性A的值是基于A的平均值與標準差規范化。
公式為:(x-mean(x))/std(x)
(3) 小數定標規范化
通過移動屬性值的小數點位置進行規范化,通俗的說就是將屬性值除以10的j次冪。
?如j=3,-986規范化后為-0.986,而917被規范化為0.917。達到了將屬性值縮到小的特定區間[-1,1]的目標。
2 歸一化(Normalization)
把數變為(0,1)之間的小數
主要是為了數據處理方便提出來的,把數據映射到0~1范圍之內處理,更加便捷快速,應該歸到數字信號處理范疇之內。
一般方法是最小-最大規范的方法:??(x-min(x))/(max(x)-min(x)),
3 標準化(Standardization)
數據的標準化是將數據按比例縮放,使之落入一個小的特定區間,標準化后的數據可正可負,但是一般絕對值不會太大。一般是z-score規范化方法:(x-mean(x))/std(x)
?
4 正則化(Regularization)
在求解最優化問題中,調節擬合程度的,參數一般稱為正則項,越大表明欠擬合,越小表明過擬合,推薦中主要用在矩陣分
李航博士在《統計學習方法》中提到,統計學習的三要素是模型、策略和算法,在機器學習領域,這個“模型”就是我們要求解的概率分布或決策函數。
假設我們現在要求一個邏輯回歸問題,首先我們要做的是假設一個函數,可以覆蓋所有的可能:y=wx,其中w為參數向量,x為已知樣本的向量,如果用yi表示第i個樣本的真實值,用f(xi)表示樣本的預測值,那么我們的損失函數可以定義為:
?
L(yi,f(xi))=yi?sigmoid(xi)?
這里可以不用關心這個函數是什么意思,就知道代表誤差就行了。對于該模型y=wx的所有樣本的損失平均值成為“經驗風險”(empiricalrisk)或”經驗損失”(empirical loss)。很顯然,經驗風險最小化(empirical riskminimization,ERM)就是求解最優模型的原則。為了達到這個目的,模型的設定會越來越復雜,最后造成該模型只適用于當前的樣本集(即over-fitting,過擬合)。
為了解決過擬合問題,通常有兩種辦法,第一是減少樣本的特征(即維度),第二就是我們這里要說的”正則化“(又稱為”懲罰“,penalty)。正則化的一般形式是在整個平均損失函數后增加一個正則項(L2范數正則化,也有其他形式的正則化,他們的作用也不同):
A=1N(∑iNL(yi,f(xi))+∑inλw2i)
?
后面的
∑inλw2i就是正則化項,其中λ越大表明懲罰粒度越大,等于0表示不做懲罰,N表示所有樣本的數量,n表示參數的個數。
從下面的圖中,可以很明顯的看出正則化函數的作用:
λ=0λ=0的情況,即沒有正則化
λ=1λ=1的情況,即合適的懲罰
λ=100,λ=100過度懲罰,出現欠擬合問題
總結
以上是生活随笔為你收集整理的数据的规范化,归一化,标准化,正则化的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: TensorFlow 自动文本摘要生成模
- 下一篇: InfluxDB 开源分布式时序、事件和