當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

一个数据应用闭环（转载）

發布時間：2024/4/14 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了一个数据应用闭环（转载）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

收集：
各種開源的分布式日志收集系統：
Scribe， Flume等等

存儲
可以同時包含各種不同的存儲類型，可根據不同的需求增減相應的存儲類型：
底層存儲：能夠存儲大量的數據，最好具有可擴展性 HDFS S3等等
關系存儲：MySQL，Postgresql等等
鍵值存儲：HBase，Redis等等

計算
計算能力也應該同時包含集中不同的類型，可根據不同的需求增減相應的存儲類型：
批量處理型計算：MapReduce，腳本批量轉換作業等等
實時統計型計算：Storm，各種監控系統
實時存取型計算：各種KV數據庫都可以達到這個目的；關系型數據庫也具有這樣的能力

邏輯轉換
這就是所謂的ETL，開源的ETL工具，比如Kettle。

數據訪問
開發的報表系統，各種OLAP產品（比如Oracle BIEE），SQL訪問接口（比如Hive等等）

價值提取層
價值就是比較抽象的東西了，仁者見仁，不必迷戀復雜的算法，要對所探究的對象本身有深入的理解；
更好地解讀數據，利用邏輯轉換層（ETL）或編寫程序來達成本層的兩個目的：
１.　建立研究對象（比如每個用戶）的標簽庫（如果必要，可以采用聚類／分類算法），以固定的格式存儲于關系存儲或鍵值存儲中
２.　根據數據發掘出類之間的關系，找出關聯比較明顯并且有價值的關系，記錄到WIKI或者專門的知識庫中

這層可以自己編寫程序，結合使用開源工具（Mahout/scikit-learn/Weka）來實現

數據應用層
主要是建立價值層與產品的直接聯系，讓發掘出來的規律直接應用在提升產品品質或其它方面，這一層的任務主要在于建立從分類庫、知識庫到產品的管道

以上各層最終應該形成一個閉環，不斷優化成長

總結

以上是生活随笔為你收集整理的一个数据应用闭环（转载）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。