机器学习中数据预处理的几种方法
? ? ? 由于實際收集到的機器學習數據集不可避免的會存在數據缺、數據集不平衡和數據集中各類數據非同一量級等情況,對缺失數據進行補全和對異常數據進行清洗、均衡化處理防止類別不平衡和數據標準化處理對于機器學習模型至關重要。
1?數據補全方法
? ? ? 有效地恢復缺失的數據是進行機器學習建模的重要前期準備工作。一方面可使得數據更完整,便于后續進一步的分析研究,另一方面,數據補全本身就是對信息進行挖掘的一種方式。
? ? ? 常見的數據補全方法包括均值補全、回歸填補法、期望最大化填補法、高斯混合模型(Gaussian Mixture Model , GMM)補全、 C均值(C-Means)補全、 K近鄰(K Nearest Neighbors , KNN)補全、決策樹填補法等。
2?數據均衡方法
? ? ? 由于實際情況,例如在信用卡欺詐檢測數據集中,大多數信用卡交易類型都不是欺詐,僅有很少一部分類型是欺詐交易,如此以來,非欺詐交易和欺詐交易之間的比率達到50:1,導致數據集不平衡問題,因此需要對數據進行均衡化處理以平衡各類,從而避免種類欠均衡而造成的負面效應。常見的均衡化方法有“欠采樣”和“過采樣”兩類,“欠采樣”就是從數量多的.類別中隨機丟棄一些數據,從而保證類別均衡,而“過采樣”則是增加數量較少樣本的采樣頻率或對訓練集數據進行插值來保證類別均衡。“欠采樣”會導致訓練數據規模減小,可能丟失數據,而“過采樣”若直接對初始數據進行多次采樣會導致嚴重的過擬合。
? ? ? SMOTE是解決數據集不平衡問題的一種過采樣方法。與一般的抽樣方法不同,SMOTE并非簡單地拷貝樣本,而是按照一定規則合成少數類樣本,以達到平衡類別的目的。
3 數據歸一化
? ? ? 數據歸一化處理是機器學習中的一項挖掘數據的基礎工作,其目的是將取值范圍相差較大的不同類型的測井曲線通過一種無量綱的處理手段,將原始數據值通過函數轉換變成具有某種相對關系的相對值,數據量縮小到特定范圍之內。
? ? ? 數據經過歸一化處理后,各指標處于同一數量級,適合進行綜合對比評價。以下是三種常用的歸一化方法:
(1)最值歸一化(min-max normalization, MMN)
? ? ? 也稱為線性歸一化,是對原始數據進行線性變換,將原始數據點映射到[ 0,1 ],也可以映射到自己定義的某個區間內。假設樣本數據有 個,其轉換函數如下:
? ? ? 其中Ximax為樣本數據的最大值,Ximin為樣本數據的最小值。
? ? ? 最值歸一化的優點是,使用簡單、快速、靈活,缺點是當數據存在極端點(如只有一兩個數值極大或極小),將會影響整個數據處理過程,造成映射后數據質量很差。
(2)標準分數歸一化方法(z-score normalization,ZSN)
原始數據經標準分數歸一化后的數據呈標準正態分布,即均值是0,標準差為1。假設樣本數據有 個,其轉換函數如下所示:
? ? ??其中為原始數據的均值, 為原始數據的標準差,是當前用得最多的數據標準化方式。
(3)中值歸一化方法(median normalization,MDN)
? ? ? 中值歸一化首先尋找原數據的中值,然后使用最大值最小值的差作為比例因子,將原始數據映射到某個區間內,一般是把零點作為區間中值,區間定為(-1,+1)或某個自定的范圍。此方法多用于數據中沒有錯誤樣本,而只是單純的將整個數據進行等比例的擴大或者縮小。
? ? ? 假設樣本數據有?n個,其轉換函數如下所示::
??
總結
以上是生活随笔為你收集整理的机器学习中数据预处理的几种方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Oracle 数据库基本知识概念
- 下一篇: AltiumDesigner 的 Pcb