阿里巴巴大数据之路——数据模型篇
阿里巴巴大數據之路——數據模型篇
一、概述
1.什么是數據模型?
數據模型就是數據的組織和存儲方法。主要關注的是從業務、數據存取和使用角度合理存儲數據。
2.典型數據倉庫建模方法論
ER模型
緯度模型(建模四步曲:確定業務流程->確定粒度->確定緯度->確定事實表)
二、阿里巴巴數據整合管理體系oneData
1.體系架構
核心內容包括規范定義、模型設計等!
? 2.模型分層
主要分為三大層(4小層):操作數據層(ODS),公共緯度模型層(CDM),應用數據層(ADS),其中,CDM又分為明細數據層(DWD)和匯總數據層(DWS)
操作層數據ODS:貼源設計,幾乎無處理地存放操作系統數據
? ? ?結構化數據增量或全量同步到MaxComputer
非結構化數據(日志)結構化處理同步到MaxComputer
累積并保存清洗數據
公共緯度模型層:存放明細數據、維表數據以及公共指標匯總數據,比較多的采用緯度退化的手段,將緯度退化到事實表中,減少關聯
??組合相關和相似數據,采用明細寬表,減少數據掃描
? 公共指標統一加工,統一口徑,建立邏輯匯總寬表
? 建立一致性緯度
應用數據層ADS:存放數據產品個性化的指標數據
??個性化指標加工,無公用性
? 基于應用的數據組裝,大寬表集市、橫表轉縱表...
整個模型如下圖所示:
?
??
//數據調用服務一般優先使用CDM層,然后ODS,ADS作為應用數據一般不對外提供服務
3.基本原則
? ?高內聚低耦合:將業務相近的放在一起,將高概率使用的放一起,遵循軟件設計開發的高內聚低耦合原則
核心模型與拓展模型分離:核心模型只包含常用核心業務字段,保證核心模型的簡潔性
一致性:相同含義的字段在不同表中必須使用相同的命名,表名等命名必須清晰一致,見名知意
...
4.實施工作流
(1)?數據調研
包含業務調研和需求調研
? ??(2)?架構設計
數據域劃分
【數據域設計】(就是給出數據的大分類,數據所屬的域)
?
?
?
構建總線矩陣
【總線結構】(就是列出緯度與主題,進行存在的緯度畫?)
后續包括規范定義、模型設計與總結
? 規范定義:
命名規范統一:表名、字段名等規范統一
字段類型統一:相同與相似字段類型統一
公共代碼與代碼值統一:代碼與標志性字段應統一
總結
以上是生活随笔為你收集整理的阿里巴巴大数据之路——数据模型篇的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 以太坊搭建,不能使用puppeth 创建
- 下一篇: 使用 TOGAF 9.1 框架與 Arc