一个数据应用闭环(转载)
收集:
各種開源的分布式日志收集系統:
Scribe, Flume等等
存儲
可以同時包含各種不同的存儲類型,可根據不同的需求增減相應的存儲類型:
底層存儲:能夠存儲大量的數據,最好具有可擴展性 HDFS S3等等
關系存儲:MySQL,Postgresql等等
鍵值存儲:HBase,Redis等等
計算
計算能力也應該同時包含集中不同的類型,可根據不同的需求增減相應的存儲類型:
批量處理型計算:MapReduce,腳本批量轉換作業等等
實時統計型計算:Storm,各種監控系統
實時存取型計算:各種KV數據庫都可以達到這個目的;關系型數據庫也具有這樣的能力
邏輯轉換
這就是所謂的ETL,開源的ETL工具,比如Kettle。
數據訪問
開發的報表系統,各種OLAP產品(比如Oracle BIEE),SQL訪問接口(比如Hive等等)
價值提取層
價值就是比較抽象的東西了,仁者見仁,不必迷戀復雜的算法,要對所探究的對象本身有深入的理解;
更好地解讀數據,利用邏輯轉換層(ETL)或編寫程序來達成本層的兩個目的:
1. 建立研究對象(比如每個用戶)的標簽庫(如果必要,可以采用聚類/分類算法),以固定的格式存儲于關系存儲或鍵值存儲中
2. 根據數據發掘出類之間的關系,找出關聯比較明顯并且有價值的關系,記錄到WIKI或者專門的知識庫中
這層可以自己編寫程序,結合使用開源工具(Mahout/scikit-learn/Weka)來實現
數據應用層
主要是建立價值層與產品的直接聯系,讓發掘出來的規律直接應用在提升產品品質或其它方面,這一層的任務主要在于建立從分類庫、知識庫到產品的管道
以上各層最終應該形成一個閉環,不斷優化成長
總結
以上是生活随笔為你收集整理的一个数据应用闭环(转载)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux下gcc升级
- 下一篇: 潜伏的问题