层 数据仓库_小尝试:基于指标体系的数据仓库搭建和数据可视化
關(guān)于作者:小姬,某知名互聯(lián)網(wǎng)公司產(chǎn)品專家,對(duì)數(shù)據(jù)采集、生產(chǎn)、加工有所了解,期望多和大家交流數(shù)據(jù)知識(shí),以數(shù)據(jù)作為提出好問題的基礎(chǔ),挖掘商業(yè)價(jià)值。
0x00 前言
我將整理文章分享數(shù)據(jù)工作中的經(jīng)驗(yàn),因?yàn)闃I(yè)務(wù)內(nèi)容上的差異,可能導(dǎo)致大家的理解不一致,無法體會(huì)到場(chǎng)景中的諸多特殊性,不過相信不斷的溝通和交流,可以解決很多問題。前面我們分析了職場(chǎng)基本功、數(shù)據(jù)指標(biāo)體系,今天我們來就前面文章中的指標(biāo)體系,聊一下數(shù)據(jù)倉庫的搭建和數(shù)據(jù)可視化。
歷史導(dǎo)讀:
小進(jìn)階:數(shù)據(jù)指標(biāo)體系和數(shù)據(jù)治理的管理
小訣竅:不妨嘗試從交付質(zhì)量上打敗對(duì)手
以下,Enjoy:
0x01 為什么基于指標(biāo)體系搭建數(shù)據(jù)倉庫
前面文章中我們提到過為什么要搭建指標(biāo)體系,如果還無法體會(huì)指標(biāo)體系的作用和意義,可以通過歷史導(dǎo)讀重溫前面的2篇文章,或者加入我們的微信群,同大家一起交流。這里簡(jiǎn)單的在換2句話描述一下做指標(biāo)體系的重要性。
- 搭建指標(biāo)體系實(shí)際上是同需求方達(dá)成一種協(xié)議,可以有效地遏制不靠譜的需求,讓需求變得體系且有條理;
- 數(shù)據(jù)指標(biāo)體系是指導(dǎo)數(shù)據(jù)倉庫搭建的基石,穩(wěn)定且體系的數(shù)據(jù)需求,有利于數(shù)據(jù)倉庫方案優(yōu)化,效率提升。
沒有數(shù)據(jù)指標(biāo)體系的團(tuán)隊(duì)內(nèi)數(shù)據(jù)需求經(jīng)常表現(xiàn)為“膨脹”現(xiàn)象。每個(gè)人都有看數(shù)據(jù)的視角和訴求,然后以非專業(yè)的方式創(chuàng)造維度/指標(biāo)的數(shù)據(jù)口徑。數(shù)據(jù)從業(yè)人員被海量的數(shù)據(jù)需求纏住,很難抽離出業(yè)務(wù)規(guī)則設(shè)計(jì)好的解決方案,最終滾雪球似的搭建難以維護(hù)的“煙囪式”數(shù)據(jù)倉庫。
提供數(shù)據(jù)可視化方案的過程,依然存在像搭建數(shù)據(jù)倉庫一樣的問題。數(shù)據(jù)可視化報(bào)表數(shù)量膨脹但使用率低,好似再多的數(shù)據(jù)報(bào)表都遠(yuǎn)遠(yuǎn)不夠滿足數(shù)據(jù)需求一樣。長(zhǎng)久下來維護(hù)成本居高不小,效益率不夠高。這讓數(shù)據(jù)從業(yè)者很苦惱,如果大家還有其他苦惱的問題,希望繼續(xù)深入的溝通了解,歡迎評(píng)論留言或者加入我們的微信群聊共同交流。
0x02 基于指標(biāo)體系搭建數(shù)據(jù)倉庫思考
我們簡(jiǎn)單回憶下的數(shù)據(jù)倉庫分層問題,做“又寬又薄”的數(shù)據(jù)倉庫分層,讓數(shù)據(jù)能夠有序的流轉(zhuǎn)。數(shù)據(jù)全鏈路的整個(gè)生命周期只有通過層次才能清洗明確的被使用者感知和消費(fèi)。任何跨層依賴,循環(huán)依賴,多重依賴都會(huì)導(dǎo)致數(shù)據(jù)問題的多發(fā)且不可維護(hù)。
- 數(shù)據(jù)倉庫常見分層方式
- 數(shù)據(jù)倉庫分層和跨層依賴、循環(huán)依賴、多重依賴的不同表現(xiàn)形式
因此,我們需要有效的組織和管理數(shù)據(jù),讓它更有秩序。
- 每層都有作用域和職責(zé),清晰每層數(shù)據(jù)的目標(biāo)定位和理解。
- 規(guī)范工作方式,做標(biāo)準(zhǔn)數(shù)據(jù)分層,開發(fā)通用性強(qiáng)(健壯)的數(shù)據(jù)中間層,避免耦合重復(fù)計(jì)算問題。
- 提供統(tǒng)一的數(shù)據(jù)服務(wù),輸出統(tǒng)一認(rèn)知的數(shù)據(jù)口徑
- 將復(fù)雜的數(shù)據(jù)任務(wù)拆解,標(biāo)準(zhǔn)步驟每層解決場(chǎng)景問題。
從數(shù)據(jù)倉庫的分層來看,ODS層是貼業(yè)務(wù),形態(tài)主要依賴業(yè)務(wù)數(shù)據(jù)形式;APP層是貼使用場(chǎng)景,取決于數(shù)據(jù)怎么呈現(xiàn)和消費(fèi),DW層是中間層,負(fù)責(zé)發(fā)揮重要的擴(kuò)展作用,肩負(fù)大量的數(shù)據(jù)加工計(jì)算責(zé)任。
鑒于以上數(shù)據(jù)倉庫的分層邏輯,我們不難得出結(jié)論。
- ODS層的搭建不需要過多思考,依賴業(yè)務(wù)庫的表現(xiàn)形式;
- APP層的更多依賴數(shù)據(jù)最終的場(chǎng)景搭建,考慮場(chǎng)景因素居多,比如多維、速度、口徑。
只有DW層讓數(shù)據(jù)生產(chǎn)者有極大的發(fā)揮空間,如何設(shè)計(jì)出好的(擴(kuò)展性強(qiáng))DW層是數(shù)據(jù)倉庫的重點(diǎn)標(biāo)準(zhǔn),相信很多同學(xué)在DW層搭建的過程都出現(xiàn)過類似問題“理想很豐滿,現(xiàn)實(shí)很殘酷”,搭建的數(shù)據(jù)“不接地氣,不實(shí)用”,還是不能解決數(shù)據(jù)需求問題,總是跟不上業(yè)務(wù)的發(fā)展變幻。
那么,從現(xiàn)在開始不妨首先建立指標(biāo)體系,基于指標(biāo)體系搭建數(shù)據(jù)倉庫。我們常見的指標(biāo)體系大致包含以下內(nèi)容:
說明:
根據(jù)產(chǎn)品框架梳理出可靠的數(shù)據(jù)矩陣效果最佳,單現(xiàn)實(shí)的情況是在產(chǎn)品框架下的不同報(bào)表的指標(biāo)口徑或是計(jì)算邏輯可能存在差異,因此數(shù)據(jù)矩陣可以是根據(jù)某個(gè)報(bào)表單獨(dú)針對(duì)性小矩陣。
說明:同數(shù)據(jù)矩陣一樣不同的數(shù)據(jù)報(bào)表中,相同的指標(biāo)名稱可能存在不同的數(shù)據(jù)口徑或者計(jì)算邏輯 ,因此指標(biāo)的口徑定義方面也可以做一些調(diào)整,例如口徑和計(jì)算邏輯不同,必須區(qū)分出不同的指標(biāo)名稱,或者是相同的指標(biāo)名稱,做好指標(biāo)口徑定義的說明,告知受眾群體差異點(diǎn)在哪里。
0x03 基于指標(biāo)體系搭建數(shù)據(jù)倉庫
常見的數(shù)據(jù)倉庫搭建,實(shí)現(xiàn)數(shù)據(jù)分層大致分為兩種模式:
- A模式:基于業(yè)務(wù)實(shí)體或者數(shù)據(jù)的應(yīng)用場(chǎng)景,從應(yīng)用層向底層推導(dǎo)過程。
- B模式:基于已有的數(shù)據(jù),從底層分類整理數(shù)據(jù),向應(yīng)用層逐步搭建。
以底層向應(yīng)用層搭建數(shù)據(jù)倉庫,側(cè)重在于需求尚且不清晰的情形下開展數(shù)據(jù)開發(fā)工作,首先實(shí)現(xiàn)數(shù)據(jù)預(yù)處理,做好數(shù)據(jù)的采集對(duì)接和數(shù)據(jù)主題分類。以備數(shù)據(jù)消費(fèi)場(chǎng)景落地的時(shí)候,快速實(shí)現(xiàn)功能的開發(fā)。這種模式通用型強(qiáng),使用廣泛,同時(shí)也會(huì)造成很多冗余和設(shè)計(jì)不合理,實(shí)際響應(yīng)需求的時(shí)候出現(xiàn)擴(kuò)展性差,重構(gòu)幾率高的現(xiàn)象。
另一種模式則是在需求明確的前提下,以需求向底層推導(dǎo)數(shù)據(jù)倉庫建模。通過需求讓參與項(xiàng)目的各方快速理解業(yè)務(wù)訴求,統(tǒng)一目標(biāo)的認(rèn)知。高質(zhì)量的梳理出業(yè)務(wù)需求和數(shù)據(jù)倉庫之間的關(guān)系,針對(duì)性強(qiáng)的搭建數(shù)據(jù)倉庫。但是這依然有詬病,就是數(shù)據(jù)建設(shè)容易出現(xiàn)“煙囪式”搭建,滿足場(chǎng)景有限,復(fù)用性差。
基于指標(biāo)體系搭建數(shù)據(jù)倉庫,主要解決的是“A模式”中的數(shù)據(jù)場(chǎng)景考慮不全面的問題。如果數(shù)據(jù)的使用場(chǎng)景考慮不全面就會(huì)造成“煙囪式”數(shù)據(jù)搭建,復(fù)用性差。數(shù)據(jù)需求如果以“點(diǎn)狀”碎片的形式提出,沒有全局的認(rèn)知和規(guī)劃,數(shù)據(jù)倉庫的搭建只能針對(duì)性的以“點(diǎn)狀的煙囪式”搭建。如果需求能體系化的產(chǎn)出,梳理出業(yè)務(wù)場(chǎng)景中所需要的維度、指標(biāo)。那么就可以最大限度的解決數(shù)據(jù)建模過程中的“煙囪式”,從而讓數(shù)據(jù)的搭建“又寬又薄”。
例如,我們有如下數(shù)據(jù)矩陣
那么,我們可以選擇的數(shù)據(jù)倉庫分層建模方式如下
說明庫.表1:通過APP層的數(shù)據(jù)表服務(wù)數(shù)據(jù)可視化,數(shù)據(jù)應(yīng)用服務(wù),多維查詢;庫.表2:實(shí)時(shí)明細(xì)表,通過與其他的實(shí)時(shí)表(庫.表3)或者維度表(庫.表4、5)關(guān)聯(lián)生成APP層的數(shù)據(jù)表;庫.表6:埋點(diǎn)數(shù)據(jù)產(chǎn)生的日志表,或者是從業(yè)務(wù)庫對(duì)接過來的業(yè)務(wù)數(shù)據(jù)(比如訂單數(shù)據(jù))
0x04 數(shù)據(jù)可視化報(bào)表
當(dāng)然,理想很豐滿現(xiàn)實(shí)很殘酷,正如我?guī)状翁岬綄?shí)際工作存在很多不理想,這是很多人遇到的問題,我也在探索新的方式,如果大家有興趣可以加入微信群一起交流。
總結(jié)
以上是生活随笔為你收集整理的层 数据仓库_小尝试:基于指标体系的数据仓库搭建和数据可视化的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pcb板材的tg是什么_做到这6点,PC
- 下一篇: 高邮市属于哪个省份的地方(江苏省城市是一