BigData预处理(完整步骤)
生活随笔
收集整理的這篇文章主要介紹了
BigData预处理(完整步骤)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
BigData預處理(完整步驟)
雖然題目是完整步驟,實際上并不完整,以下是原文內容
一:為什么要預處理數據?
(1)現實世界的數據是骯臟的(不完整,含噪聲,不一致)(2)沒有高質量的數據,就沒有高質量的挖掘結果(高質量的決策必須依賴于高質量的數據;數據倉庫需要對高質量的數據進行一致地集成)
(3)原始數據中存在的問題:
不一致 —— 數據內含出現不一致情況
重復
不完整 —— 感興趣的屬性沒有
含噪聲 —— 數據中存在著錯誤、或異常(偏離期望值)的數據
高維度
二:數據預處理的方法
(1)數據清洗 —— 去噪聲和無關數據
(2)數據集成 —— 將多個數據源中的數據結合起來存放在一個一致的數據存儲中
(3)數據變換 —— 把原始數據轉換成為適合數據挖掘的形式
(4)數據規約 —— 主要方法包括:數據立方體聚集,維度歸約,數據壓縮,數值歸約,離散化和概念分層等。
(5)圖說事實
三:數據選取參考原則
(1)盡可能富余屬性名和屬性值明確的含義
(2)統一多數據源的屬性編碼
(3)去除唯一屬性
(4)去除重復屬性
(5)去除可忽略字段
(6)合理選擇關聯字段
(7)進一步處理:
通過填補遺漏數據、消除異常數據、平滑噪聲數據,以及糾正不一致數據,去掉數據中的噪音、填充空值、丟失值和處理不一致數據
四:用圖說話,(我還是習慣用統計圖說話)
?
數據清洗的路子:剛拿到的數據 —-> 和數據提供者討論咨詢 —–> 數據分析(借助可視化工具)發現臟數據 —->清洗臟數據(借助MATLAB或者Java/C++語言) —–>再次統計分析(Excel的data analysis不錯的,最大小值,中位數,眾數,平均值,方差等等,以及散點圖) —–> 再次發現臟數據或者與實驗無關的數據(去除) —–>最后實驗分析 —-> 社會實例驗證 —->結束。
總結
以上是生活随笔為你收集整理的BigData预处理(完整步骤)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 关于我的CSDN博客的一些要说的话
- 下一篇: 封装汉语自然语言处理中的常用方法(附代码