《数据中台:让数据用起来》读书笔记
本篇博客是通過閱讀《數(shù)據(jù)中臺(tái):讓數(shù)據(jù)用起來》,結(jié)合現(xiàn)在自己正在一個(gè)數(shù)據(jù)中臺(tái)還沒成體系化的公司中的一些工作經(jīng)歷寫的一些筆記和個(gè)人感想。一直很喜歡數(shù)據(jù)產(chǎn)品經(jīng)理這個(gè)崗位,也希望有一天能夠真正理解數(shù)據(jù)中臺(tái)的含義和構(gòu)建過程,能夠獨(dú)自帶領(lǐng)搭建一個(gè)公司的數(shù)據(jù)中臺(tái)
1、數(shù)據(jù)化平臺(tái)
特征:充分協(xié)同并融入業(yè)務(wù)流程,統(tǒng)一數(shù)據(jù)模型并可平滑交換數(shù)據(jù),云原生和數(shù)據(jù)能力開放,以及智能化
數(shù)據(jù)資產(chǎn):能夠直接作用于業(yè)務(wù)領(lǐng)域,業(yè)務(wù)能夠閱讀、能理解的數(shù)據(jù)才叫數(shù)據(jù)資產(chǎn)
數(shù)據(jù)中臺(tái)建設(shè)特點(diǎn):業(yè)務(wù)數(shù)據(jù)化–數(shù)據(jù)資產(chǎn)化–資產(chǎn)服務(wù)化–服務(wù)業(yè)務(wù)化
2、數(shù)據(jù)中臺(tái)
① 定義:數(shù)據(jù)中臺(tái)是一套可持續(xù)“讓企業(yè)的數(shù)據(jù)用起來”的機(jī)制,是一種戰(zhàn)略選擇和組織形式,是依據(jù)企業(yè)特有的業(yè)務(wù)模式和組織架構(gòu),通過有形的產(chǎn)品和實(shí)施方法論支撐,構(gòu)建的一套持續(xù)不斷把數(shù)據(jù)變成資產(chǎn)并服務(wù)于業(yè)務(wù)的機(jī)制
② 數(shù)據(jù)中臺(tái)的核心能力
數(shù)據(jù)匯聚整合–數(shù)據(jù)提純加工–數(shù)據(jù)服務(wù)可視化–數(shù)據(jù)價(jià)值變現(xiàn)
③ 數(shù)據(jù)中臺(tái)建設(shè)目標(biāo)評(píng)估
④ 建設(shè)內(nèi)容
技術(shù)體系–數(shù)據(jù)體系–服務(wù)體系–運(yùn)營(yíng)體系
技術(shù)體系:分兩個(gè)層面,大數(shù)據(jù)存儲(chǔ)計(jì)算技術(shù)和數(shù)據(jù)中臺(tái)工具技術(shù)組件,技術(shù)體系主要關(guān)注點(diǎn)是工具技術(shù)組件。
數(shù)據(jù)體系:是數(shù)據(jù)中臺(tái)建設(shè)、管理、使用的核心要素,全企業(yè)的數(shù)據(jù)通過各種方式匯聚到數(shù)據(jù)中臺(tái),在數(shù)據(jù)中臺(tái)按照一定的建模方式進(jìn)行加工,形成企業(yè)的數(shù)據(jù)資產(chǎn)體系
服務(wù)體系:是通過數(shù)據(jù)中臺(tái)的服務(wù)組件能力,把數(shù)據(jù)變?yōu)橐环N服務(wù)能力,比如客戶微觀畫像服務(wù)、信用評(píng)估服務(wù)、風(fēng)險(xiǎn)預(yù)警服務(wù)等,讓數(shù)據(jù)能夠方便地參與到業(yè)務(wù)中并為業(yè)務(wù)帶去價(jià)值。
運(yùn)營(yíng)體系:是數(shù)據(jù)中臺(tái)得以健康、持續(xù)運(yùn)轉(zhuǎn)的基礎(chǔ)。運(yùn)營(yíng)體系包括平臺(tái)流程規(guī)范執(zhí)行監(jiān)督、平臺(tái)資源占用的監(jiān)管及優(yōu)化推動(dòng)、數(shù)據(jù)質(zhì)量的監(jiān)督及改進(jìn)推動(dòng)、數(shù)據(jù)價(jià)值的評(píng)估、數(shù)據(jù)服務(wù)的推廣、稽查排名等
3、數(shù)據(jù)中臺(tái)架構(gòu)
4、數(shù)據(jù)中臺(tái)建設(shè)的評(píng)估與選擇
公司數(shù)據(jù)情況梳理:
①梳理公司現(xiàn)有有哪些業(yè)務(wù)線,每個(gè)業(yè)務(wù)線有哪些數(shù)據(jù),分別以什么形式存儲(chǔ)以及數(shù)據(jù)的應(yīng)用情況有哪些
②對(duì)數(shù)據(jù)的應(yīng)用成熟度進(jìn)行模型評(píng)估
5、數(shù)據(jù)開發(fā)
元數(shù)據(jù)管理:可以將Topic中相應(yīng)的元數(shù)據(jù)信息統(tǒng)一維護(hù)到元數(shù)據(jù)注冊(cè)中心,將數(shù)據(jù)和元數(shù)據(jù)進(jìn)行解耦, Topic中只需要存入數(shù)據(jù)即可
特征工程:是指在算法開發(fā)過程中,利用特征選擇、特征加工、特征降維等技術(shù)手段構(gòu)建對(duì)結(jié)果具有顯著影響或便于模型處理的特征。利用特征工程相關(guān)的組件可以快速構(gòu)建特征體系、快速選擇有效特征,進(jìn)而大幅提高算法的質(zhì)量,提升分析效率。常見的組件有主成分分析、特征尺度變換、特征離散、特征異常平滑、奇異值分解、one-hot編碼等
6、數(shù)據(jù)體系建設(shè)
①中臺(tái)數(shù)據(jù)體系特征:
a、覆蓋全域數(shù)據(jù):數(shù)據(jù)集中建設(shè),覆蓋所有業(yè)務(wù)過程數(shù)據(jù),業(yè)務(wù)在中臺(tái)數(shù)據(jù)體系中總能找到需要的數(shù)據(jù)
b、結(jié)構(gòu)層次清晰:縱向的數(shù)據(jù)分層,橫向主題域、業(yè)務(wù)過程劃分,讓整個(gè)層次結(jié)構(gòu)清晰易理解
c、數(shù)據(jù)準(zhǔn)確一致:定義一致性指標(biāo),統(tǒng)一命名、統(tǒng)一業(yè)務(wù)含義、統(tǒng)一計(jì)算口徑,并有專業(yè)團(tuán)隊(duì)負(fù)責(zé)建模,保證數(shù)據(jù)的準(zhǔn)確一致
d、性能提升:統(tǒng)一的規(guī)劃設(shè)計(jì),選用合理的數(shù)據(jù)模型,清晰地定義并統(tǒng)一規(guī)范,并且考慮使用場(chǎng)景,使整體性能更好
f、降低成本:數(shù)據(jù)體系的建設(shè)使得數(shù)據(jù)能被業(yè)務(wù)共享,這避免了大量煙囪式的重復(fù)建設(shè),節(jié)約了計(jì)算、存儲(chǔ)和人力成本
g、方便易用:易用的總體原則是越往后越能方便地直接使用數(shù)據(jù),把一些復(fù)雜的處理盡可能前置,必要時(shí)做適當(dāng)?shù)娜哂嗵幚怼1热缭跀?shù)據(jù)的使用中,可以通過維度冗余和事實(shí)冗余來提前進(jìn)行相關(guān)處理,以避免使用時(shí)才計(jì)算,通過公共計(jì)算下沉、明細(xì)與匯總共存等為業(yè)務(wù)提供靈活性
②中臺(tái)數(shù)據(jù)體系架構(gòu)
a、貼源數(shù)據(jù)層ODS(Operational Data Store,又稱操作數(shù)據(jù)層):對(duì)各業(yè)務(wù)系統(tǒng)數(shù)據(jù)進(jìn)行采集、匯聚,盡可能保留原始業(yè)務(wù)流程數(shù)據(jù),與業(yè)務(wù)系統(tǒng)基本保持一致,僅做簡(jiǎn)單整合、非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化處理或者增加標(biāo)識(shí)數(shù)據(jù)日期描述信息,不做深度清洗加工。
b、統(tǒng)一數(shù)倉(cāng)層DW(Data Warehouse):又細(xì)分為明細(xì)數(shù)據(jù)層DWD(Data Warehouse Detail)和匯總數(shù)據(jù)層DWS (Data Warehouse Summary),與傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)功能基本一致,對(duì)全歷史業(yè)務(wù)過程數(shù)據(jù)進(jìn)行建模存儲(chǔ)。對(duì)來源于業(yè)務(wù)系統(tǒng)的數(shù)據(jù)進(jìn)行重新組織。業(yè)務(wù)系統(tǒng)是按照業(yè)務(wù)流程方便操作的方式來組織數(shù)據(jù)的,而統(tǒng)一數(shù)倉(cāng)層從業(yè)務(wù)易理解的視角來重新組織,定義一致的指標(biāo)、維度,各業(yè)務(wù)板塊、業(yè)務(wù)域按照統(tǒng)一規(guī)范獨(dú)立建設(shè),從而形成統(tǒng)一規(guī)范的標(biāo)準(zhǔn)業(yè)務(wù)數(shù)據(jù)體系。
c、標(biāo)簽數(shù)據(jù)層TDM(Tag Data Model):面向?qū)ο蠼?#xff0c;對(duì)跨業(yè)務(wù)板塊、跨數(shù)據(jù)域的特定對(duì)象數(shù)據(jù)進(jìn)行整合,通過ID-Mapping把各個(gè)業(yè)務(wù)板塊、各個(gè)業(yè)務(wù)過程中的同一對(duì)象的數(shù)據(jù)打通,形成對(duì)象的全域標(biāo)簽體系,方便深度分析、挖掘、應(yīng)用。
d、應(yīng)用數(shù)據(jù)層ADS(Application Data Store):按照業(yè)務(wù)的需要從統(tǒng)一數(shù)倉(cāng)層、標(biāo)簽數(shù)據(jù)層抽取數(shù)據(jù),并面向業(yè)務(wù)的特殊需要加工業(yè)務(wù)特定數(shù)據(jù),以滿足業(yè)務(wù)及性能需求,向特定應(yīng)用組裝應(yīng)用數(shù)據(jù)。
③統(tǒng)一數(shù)倉(cāng)層的建設(shè)過程
舉例:
業(yè)務(wù)板塊:商品素材板塊、作品板塊、短視頻板塊、評(píng)論帖子板塊
業(yè)務(wù)過程:業(yè)務(wù)過程與事實(shí)表一對(duì)一,點(diǎn)擊事實(shí)、購(gòu)買事實(shí)、曝光事實(shí)、使用事實(shí)
原子指標(biāo):曝光次數(shù)、點(diǎn)擊次數(shù)、購(gòu)買次數(shù)
派生指標(biāo):7天曝光次數(shù)、7天點(diǎn)擊,7天購(gòu)買
維度屬性:時(shí)間維度、地點(diǎn)維度、商品維度
④數(shù)據(jù)域劃分
第一階段:數(shù)據(jù)調(diào)研
業(yè)務(wù)調(diào)研和數(shù)據(jù)調(diào)研
第二階段:業(yè)務(wù)分類
業(yè)務(wù)過程提取、業(yè)務(wù)過程拆分、業(yè)務(wù)過程分類
第三階段:數(shù)據(jù)域定義
業(yè)務(wù)分類確認(rèn)、數(shù)據(jù)域定義
第四階段:總線矩陣構(gòu)建
關(guān)系梳理、矩陣構(gòu)建
舉例:
④指標(biāo)設(shè)計(jì)
指標(biāo)就是在企業(yè)業(yè)務(wù)運(yùn)轉(zhuǎn)過程中產(chǎn)生的度量事實(shí),一致性指標(biāo)設(shè)計(jì)是為了在企業(yè)內(nèi)外部使指標(biāo)的命名、計(jì)算方法、業(yè)務(wù)理解達(dá)到一致,避免不同部門同一個(gè)指標(biāo)的數(shù)據(jù)對(duì)不上或者對(duì)同一個(gè)指標(biāo)的數(shù)據(jù)理解不一致
一致性指標(biāo):
a、維度表設(shè)計(jì)
維度表設(shè)計(jì)主要包括選擇維度、確定主維表、梳理關(guān)聯(lián)維表、定義維度屬性等過程。
b、事實(shí)表設(shè)計(jì)
事實(shí)表由兩部分組成:一部分是由主鍵和外鍵組成的鍵值部分,另一部分是用來描述業(yè)務(wù)過程的事實(shí)度量
⑤標(biāo)簽設(shè)計(jì)
a、標(biāo)簽分類
屬性標(biāo)簽:對(duì)象本身的性質(zhì),性別、年齡等
統(tǒng)計(jì)標(biāo)簽:一致性指標(biāo),日均登錄次數(shù)等
算法標(biāo)簽:規(guī)則型和挖掘型指標(biāo),比如信用指數(shù)、購(gòu)買能力、品牌偏好
b、標(biāo)簽的設(shè)計(jì)內(nèi)容
標(biāo)簽的標(biāo)簽,即元標(biāo)簽的設(shè)計(jì)內(nèi)容主要包括標(biāo)簽類目、標(biāo)簽名、標(biāo)簽加工類型、標(biāo)簽邏輯、值字典、取值類型、示例、更新周期、安全等級(jí)、表名、字段名、負(fù)責(zé)人、完成時(shí)間等。其中“標(biāo)簽類目、標(biāo)簽名、標(biāo)簽加工類型、標(biāo)簽邏輯、值字典、取值類型、示例、更新周期、安全等級(jí)”偏向業(yè)務(wù)方向,主要登記與業(yè)務(wù)所需相關(guān)的指標(biāo);“表名、字段名、負(fù)責(zé)人、完成時(shí)間”偏向技術(shù)方向,主要登記的技術(shù)開發(fā)實(shí)施過程相關(guān)的指標(biāo)
7、數(shù)據(jù)服務(wù)
查詢服務(wù)、分析服務(wù)、檢索服務(wù)、圈人服務(wù)、推薦服務(wù)、風(fēng)控服務(wù)等多種數(shù)據(jù)服務(wù)類型
總結(jié)
以上是生活随笔為你收集整理的《数据中台:让数据用起来》读书笔记的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [Windows Server] 在 W
- 下一篇: 树莓派搭建minecraft服务器