《大数据导论》之数据生命周期和数据使用
1 數據生命周期
數據都存在一個生命周期,數據生命周期是指數據從創建、修改、發布利用到歸檔/銷毀的整個過程。
1.1 數據生命周期管理工作包括以下幾個方面:
-
分類:對數據進行自動分類,分離出有效的數據,對不同類型數據制定不同的管理策略,并及時清理無用的數據。
-
存儲:構建分層的存儲系統,滿足不同類型的數據對不同生命周期階段的存儲要求,對關鍵數據進行數據備份保護,對處于生命周期末期的數據進行歸檔并保存到適合長期保存數據的存儲設備中。
-
管理:根據不同的數據管理策略,實施自動分層數據管理,即自動把不同生命周期階段的數據存放在最合適的存儲設備上,提高數據可用性和管理效率。
1.2 數據生命周期管理的作用
-
降低數據安全風險
-
降低數據維護成本
-
提高數據質量
2 數據的使用
?2.1 數據清洗
任何數據分析計劃的第一步就是數據清洗,也就是把數據變成一個可用的狀態。這個過程需要借助于工具去實現數據轉換,比如古老的Unix工具AWK、XML解析器和機器學習庫等,此外,腳本語言,比如Perl和Python,也可以在這個過程發揮重要的作用。完成數據的解析,就要開始關注數據的質量。對于來源眾多、類型多樣的數據而言,數據缺失和語義模糊等問題是不可避免的,必須采取措施解決。
2.2 數據管理
數據經過清洗以后,被存放到數據庫系統中進行管理和使用。從上個世紀70年代開始,關系型數據庫提供SQL語句進行各種查詢操作,同時支持事務一致性功能,很好地滿足了各種商業應用需求,但隨著Web2.0應用的不斷發展,非結構化數據開始迅速增加,對于大規模非結構化數據則暴露了很多難以克服的問題,NoSQL數據庫的出現,有效滿足對非結構化數據進行管理的市場需求,并得到了非常迅速的發展
2.3 數據分析
-
構建統計模型對數據分析也十分重要.統計是數據分析的重要方式,在眾多開源的統計分析工具中,R語言和它的綜合類庫CRAN是最重要
-
為了能夠讓數據說話,使得分析結果更容易被人理解,還需要對分析結果進行可視化
-
可視化對數據分析來說是一項非常重要的工作,如果需要找出數據到底差在哪里,就需要畫圖幫助人們進行直觀理解,繼而找出問題所在
2.4 數據使用的實例
以數據倉庫為例,來說明一下數據在企業中使用的方法,這是一個數據倉庫的圖,在數據倉庫應用當中會有很多的數據源,這些數據源都是OLTP系統,這些數據源會通過ETL工具按照一定周期把它抽取、轉換加載到數據倉庫中,在數據倉庫中就會行程大量的歷史的累積數據,這些歷史累積數據就可以提供給前端進行數據挖掘、報表等應用程序使用,這就是數據倉庫的使用方法。
?歡迎點贊收藏!!!
總結
以上是生活随笔為你收集整理的《大数据导论》之数据生命周期和数据使用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Android平台视频相关的多媒体技术理
- 下一篇: 软件开发者们需要知道的四则市场营销技巧