数据挖掘之数据预处理
生活随笔
收集整理的這篇文章主要介紹了
数据挖掘之数据预处理
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
- 為什么要進行數據預處理?
現實情況中,你的數據可能是不完整的(缺少屬性值或某些感興趣的屬性或僅包含聚類數據)、含噪聲的(包含錯誤或存在偏離期望的離群值)、并且是不一致的。
數據清理:填寫缺失的值、光滑噪聲數據、識別或刪除離群點并解決不一致性
數據集成:當數據來自多個數據源時,而同一個屬性在不同數據源不同,合成時存在冗余
數據規約:數據集的簡化
- 描述性數據匯總
?1 度量數據的中心趨勢
均值、中位數、眾數、中列數(最大值和最小值的平均值)
?2 度量數據的離散程度
四分位數、四分位數極差、方差
五數概況:最小值、第一個四分位數、中位數、第三個四分位數、最大值
?3 圖形顯示
直方圖、分位數圖、q-q圖
- 數據清理
?
- 數據集成和變換
?
- 數據規約
?
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的数据挖掘之数据预处理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 谷歌员工:谷歌已沦为普通大公司 那种感觉
- 下一篇: 成本有望减半!特斯拉下一代新平台将在3月