各大公司的大数据质量监控平台
轉自:https://zhuanlan.zhihu.com/p/41679658
在這個信息化時代,你用手機打開微信聊天、打開京東app瀏覽商品、訪問百度搜索、甚至某些app給你推送的信息流等等,數據無時無刻不在產生。
數據,已經成為互聯網企業非常依賴的新型重要資產。數據質量的好壞直接關系到信息的精準度,也影響到企業的生存和競爭力。Michael Hammer(《Reengineering the Corporation》一書的作者)曾說過,看起來不起眼的數據質量問題,實際上是拆散業務流程的重要標志。 數據質量管理是測度、提高和驗證質量,以及整合組織數據的方法等一套處理準則,而體量大、速度快和多樣性的特點,決定了大數據質量所需的處理,有別于傳統信息治理計劃的質量管理方式。
本文主要探討了一二線互聯網公司數據質量監控平臺。
一、Data Quality Center(DQC阿里巴巴數據質量監控平臺)
1.系統架構圖
(1)基于線上業務數據,進行數據采集
(2)基于監控規則庫,執行SQL任務,進行計算處理
(3)基于用戶規則,發送數據報警(短信、郵件)
2.系統流程圖
(1)用戶進行規則配置
(2)通過定時的調度任務觸發檢查任務執行
(3)基于任務配置,獲取樣本數據
(4)基于計算返回檢驗結果
(5)調度根據檢驗結果,決定是否阻斷干預(強依賴、弱依賴)
二、 Apache Griffin(Ebay開源數據質量監控平臺)
1.系統架構
(1)從準確性、完整性、時效性、唯一性等多個維度進行監控
(2)計算結果存儲至ES、HDFS
(3)計算結果metrics展示
(4)支持實時和離線
(5)優勢:開源
2.系統技術路線
3.metrics展示
三、 DataMan(美團點評數據質量監控平臺)
1.系統架構
DataMan系統建設總體方案基于美團的大數據技術平臺。自底向上包括:檢測數據采集、質量集市處理層;質量規則引擎模型存儲層;系統功能層及系統應用展示層等。整個數據質量檢核點基于技術性、業務性檢測,形成完整的數據質量報告與問題跟蹤機制,創建質量知識庫,確保數據質量的完整性(Completeness)、正確性(Correctness)、當前性(Currency)、一致性(Consistency)。
2.metric展示
四、 BDP(京東大數據質量監控平臺)
京東數據質量監控系統(簡稱:數據質量系統) 是數據倉庫、數據集市中表的數據變化進行監控。數據質量系統根據用戶設定采集項配置、規則項配置、預警規則設置(枚舉值),對用戶指定的表進行每日定時數據采集、計算,并與歷史數據或維表進行比對驗證。最終將觸發預警規則的異常數據以短信、郵件、App 等方式及時通知給用戶。
1.系統架構圖
關系型數據庫mysql和非關系型數據庫HBase作為數據源,進行監控
2.系統流程圖
(1)數據監控(2)運行日志(3)數據報警(4)規則配置
3.監控展示
上述主要分析了當前各大公司主要在使用或者開發的數據質量方面的平臺,無論是離線數據監控還是實時數據監控,均有涉及。然而可能你的公司沒有這么多的人力或者物力,但是由于數據量的增長,需要考慮數據治理方面的問題,就可以考慮采用開源的平臺,在此基礎上開發或者優化,畢竟站在前人的肩膀上才能看的更遠,走的更快。
總結
以上是生活随笔為你收集整理的各大公司的大数据质量监控平台的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java堆、栈、内存分析
- 下一篇: POJ 2186