数据产品经理修炼手册_数据产品经理需要了解的大数据平台架构
了解大數(shù)據(jù)平臺的基礎(chǔ)架構(gòu)有助于我們清楚數(shù)據(jù)是怎么流轉(zhuǎn)與處理的,在每一層的結(jié)構(gòu)中數(shù)據(jù)是以什么形式存儲的,當我們聽到工程師們談論到這些內(nèi)容時,不至于一無所知。
本文內(nèi)容偏基礎(chǔ),適合像作為入門了解。
文不如表,表不如圖,先上一張大數(shù)據(jù)平臺架構(gòu)圖:
大數(shù)據(jù)平臺架構(gòu)圖按數(shù)據(jù)流向?qū)⒋髷?shù)據(jù)平臺分為3層。
第1層-原始數(shù)據(jù)層
在這一層中完成的是數(shù)據(jù)從業(yè)務數(shù)據(jù)系統(tǒng)傳輸?shù)紻OS操作型數(shù)據(jù)層的過程。業(yè)務數(shù)據(jù)通常是來源于各個業(yè)務系統(tǒng)(比如crm系統(tǒng)、訂單系統(tǒng)等)、用戶操作日志或其他第三方數(shù)據(jù)系統(tǒng),這一過程的主要目的是將來自各方的數(shù)據(jù)在DOS操作型數(shù)據(jù)庫中實現(xiàn)數(shù)據(jù)集中。集中后的數(shù)據(jù)可以緩解業(yè)務系統(tǒng)的查詢壓力,同時方便地支持多維度分析等查詢功能。
這個過程中,我們要關(guān)注的是數(shù)據(jù)抽取的接口、數(shù)據(jù)量的大小、抽取方式。
DOS操作型數(shù)據(jù)層的數(shù)據(jù)特點:
- 通常是實時或分鐘級從業(yè)務數(shù)據(jù)層獲取數(shù)據(jù)
- 存儲的是當前的、不斷變化的數(shù)據(jù),歷史數(shù)據(jù)通常保存3-6個月
第2層-數(shù)據(jù)倉庫層
數(shù)據(jù)倉庫不是一個獨立的個體,它是大數(shù)據(jù)平臺的一部分,是一個集成化的、面向主題的數(shù)據(jù)存儲集合,它既不生產(chǎn)數(shù)據(jù),也不消費數(shù)據(jù),它存儲的通常是歷史的、不再變化的數(shù)據(jù)。
數(shù)據(jù)倉庫的特點:
1)面向主題
數(shù)據(jù)倉庫的主要功能就是向數(shù)據(jù)應用層提供信息以作出決策,所以數(shù)據(jù)倉庫通過一個個主題域?qū)⒍鄠€業(yè)務系統(tǒng)的數(shù)據(jù)加載到一起,來支持對各個主題的分析。
2)集成性
數(shù)據(jù)倉庫中的數(shù)據(jù)來源于眾多不同數(shù)據(jù)源。數(shù)據(jù)倉庫系統(tǒng)將多處的數(shù)據(jù)源通過一定的規(guī)則進行etl處理,再聚合集成到數(shù)據(jù)倉庫。
3)穩(wěn)定性
對數(shù)據(jù)倉庫中的數(shù)據(jù)一般僅執(zhí)行查詢操作,很少會有刪除和更新。這些數(shù)據(jù)是為企業(yè)數(shù)據(jù)分析而建立,所以數(shù)據(jù)被加載后通常會被長期保留。
4)數(shù)據(jù)的切片存儲
數(shù)據(jù)倉庫的數(shù)據(jù)存儲是加了時間戳的,相當于是把數(shù)據(jù)按照快照的方式存了n個版本,從而避免業(yè)務數(shù)據(jù)被不斷覆蓋,使得歷史時間的數(shù)據(jù)可追溯、分析。
數(shù)據(jù)的分層存儲:
數(shù)據(jù)倉庫的數(shù)據(jù)存儲是分層級的,這個架構(gòu)一方面跟數(shù)據(jù)拉取方式有關(guān),一方面也是為了對數(shù)據(jù)進行層級的抽象處理。數(shù)據(jù)倉庫主要分為基礎(chǔ)層、主題層、數(shù)據(jù)集市層三層。
1)基礎(chǔ)層
ODS層的數(shù)據(jù)經(jīng)過簡單的etl處理進入基礎(chǔ)層,通過建模的方式,經(jīng)業(yè)務模型、領(lǐng)域模型、邏輯模型、物理模型一系列處理,來實現(xiàn)對數(shù)據(jù)的輕度匯總,產(chǎn)出輕度匯總明細表、維度表等。
這個過程中,對于數(shù)據(jù)的etl處理,會涉及到一些數(shù)據(jù)錯誤、遺漏、不規(guī)范、不統(tǒng)一等問題,產(chǎn)品經(jīng)理需要和研發(fā)工程師做好溝通,提供數(shù)據(jù)清洗邏輯。
2)主題層
主題層的存儲的是高度綜合的數(shù)據(jù),是由ODS層和基礎(chǔ)層的數(shù)據(jù)按照一定的維度和業(yè)務邏輯聚合而來,仍然覆蓋了所有的業(yè)務數(shù)據(jù),只是它的數(shù)據(jù)存儲形式是面向主題的,比如訂單主題、商品主題、物流主題等,目的是可以滿足用戶分析某個主題的需求。
這一層的搭建規(guī)則要依賴于公司業(yè)務需求,所以產(chǎn)品經(jīng)理需要對業(yè)務有深入的理解。
3)數(shù)據(jù)集市層
數(shù)據(jù)集市可以理解為是一種“小型數(shù)據(jù)倉庫”,一般面向部門、面向主題或特定應用,它最主要作用是將主題數(shù)據(jù)組合成數(shù)據(jù)分析模型,數(shù)據(jù)的結(jié)構(gòu)通常是由事實表和維度表構(gòu)成的星型結(jié)構(gòu)或雪花結(jié)構(gòu)。
星型模型是面向主題的常用模式,主要由一個事實表及多個維表構(gòu)成,不存在二級維表。
雪花模型是在星型模型基礎(chǔ)上將維度表再次擴展,好處是耦合性低,冗余小。缺點是需要跨多表查詢時性能低。
第3層-數(shù)據(jù)應用層
數(shù)據(jù)倉庫的數(shù)據(jù)通常服務于數(shù)據(jù)可視化報表、數(shù)據(jù)分析(包含數(shù)據(jù)挖掘)、即席查詢。
數(shù)據(jù)報表幾乎是每個數(shù)據(jù)倉庫的必不可少的一類數(shù)據(jù)應用,將聚合數(shù)據(jù)和多維分析數(shù)據(jù)展示到報表,使數(shù)據(jù)更直觀、易理解。
數(shù)據(jù)分析是數(shù)據(jù)倉庫的主要應用,用戶可以提取到隱藏的、重要的信息,進而開展描述性、預測性、指導性的數(shù)據(jù)分析,為企業(yè)提供更大的商業(yè)價值。
即席查詢(Ad Hoc)是用戶根據(jù)自己的需求,靈活的選擇查詢條件,系統(tǒng)能夠根據(jù)用戶的選擇生成返回響應的結(jié)果,例如返回用戶自定義的統(tǒng)計報表。這需要數(shù)據(jù)庫內(nèi)部實時自動優(yōu)化,所以即席查詢也是評估數(shù)據(jù)倉庫的一個重要指標。在一個數(shù)據(jù)倉庫系統(tǒng)中,即席查詢使用的越多,對數(shù)據(jù)倉庫的要求就越高。
總結(jié)
針對大數(shù)據(jù)平臺,作為產(chǎn)品經(jīng)理,我們首先應該做到:
1)了解大數(shù)據(jù)平臺的架構(gòu)、數(shù)據(jù)的流轉(zhuǎn)與處理,方便與研發(fā)溝通交流
2)在數(shù)據(jù)清洗時,能夠提供保證數(shù)據(jù)質(zhì)量的數(shù)據(jù)清洗規(guī)范
3)對業(yè)務要有深刻的理解,能更好地了解或參與主題構(gòu)建、數(shù)據(jù)分析模型構(gòu)建
參考資料
1.《數(shù)據(jù)產(chǎn)品經(jīng)理修煉手冊》
2.數(shù)據(jù)倉庫學習筆記:修煉數(shù)據(jù)產(chǎn)品經(jīng)理
http://www.woshipm.com/data-analysis/950578.html
3.數(shù)據(jù)倉庫的基本架構(gòu)
http://www.woshipm.com/pd/676.html
4.大數(shù)據(jù)時代:數(shù)據(jù)倉庫搭建之路
http://www.woshipm.com/data-analysis/1932441.html
總結(jié)
以上是生活随笔為你收集整理的数据产品经理修炼手册_数据产品经理需要了解的大数据平台架构的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pyecharts官网使用说明书---保
- 下一篇: Gluster常见故障处理和HOWTO资