[特征工程系列二]显性特征的基本处理方法
今天接著前一篇文章講,主要分享基于顯性特征工程的一些最基本的處理方法。關于顯性特征是什么,大家可以去看系列文章一。關于顯性特征的處理方法可以做這樣的類比:不知道大家平時會不會自己做菜,我個人的話基本每周都會做。我們從菜市場買的菜,不經過處理是不能下鍋的,因為需要清洗、摘取爛的葉子、切段等操作后才可以下鍋。如果把機器學習整個流程比做炒一盤青菜的話,今天要介紹這些方式就有點像菜的前期處理過程。那我們就分類別介紹下,對于一份數據,需要針對特征做哪些處理。
?
1.????數據清洗
主要包括兩方面,一方面是填充缺失值,因為在機器學習算法的計算過程中會對數據進行各種運算符的計算,需要把一些空值填充,通常會被填充為0或者是對應特征列的均值。第二方面是亂碼問題,如果是文本數據,經常會出現編碼問題,需要把數據的類型全部處理好,最好是double型的。
?
2.????去量綱
因為數據的量綱會影響到某些算法的計算,比如有兩個字段數據分別是一個人吃飯用了多少秒、吃了多少斤飯,那一個是時間數據,另一個是重量數據,算法是無法感知這些量綱的影響的,所以需要一些數學手段規避。去量綱常用的方法是歸一化和標準化。
?
標準化就是每個特征值減去均值再除以方差,表現的是數據的一個分布情況。
歸一化是把數據的分布強制性的限制到0和1之間,使得向量單位化。
個人認為標準化對于刻畫數據的特征效果更好。
?
3.????數據平滑
大家可能平時會接觸到一些分布極不均勻的數據,比如一個數據區間是[0,256],但是百分之九十以上的數據分布在[0,10]和[200,256]這兩個區間中。對于這樣的數據可以通過取對數的方式來處理,讓數據的分布更加平滑。或者干脆數據分桶,去一個中間閾值,小于128的標記為0,大于128的標記為1。
?
4.????數據去噪
很多時候數據因為采集方式可能出現各別事故,比如有的數據是靠調查問卷采集上來的,但是就有一個人不認真寫,瞎寫,造成了噪聲數據。這種跟事實偏差極大的數據,可以通過正態分布的原理去除,因為可以設想數據的分布大部分是比較平均的,符合正態分布,那與均值偏差極大的部分就很有可能是噪聲,需要去除。
?
5.????降維
降維的方式很多啦,如果要講的話需要非常大的篇幅,之前在寫書的時候已經寫了一遍了~有點懶,在這里簡單題下。其實除了PCA、LDA這兩種降維方式以外,邏輯回歸中的正則L1也可以理解為一種降維處理。
總結
以上是生活随笔為你收集整理的[特征工程系列二]显性特征的基本处理方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [特征工程系列一] 论特征的重要性
- 下一篇: [特征工程系列三]显性特征的衍生