数据仓库系列篇——唯品会大数据架构
https://zhuanlan.zhihu.com/p/45123018
What——大數(shù)據(jù)&數(shù)據(jù)倉庫
什么是大數(shù)據(jù)?
*?廣義的大數(shù)據(jù)是指:無法用現(xiàn)有的軟件工具提取、存儲、搜索、共享、分析和處理的、海量的、復(fù)雜的數(shù)據(jù)集合。業(yè)界通常用4個V(即Volume、Variety、Value、Velocity)概括大數(shù)據(jù)的特征——
一是數(shù)據(jù)體量巨大(Volume)。
二是數(shù)據(jù)類型繁多(Variety)。相對以往便于存儲的、以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數(shù)據(jù),對數(shù)據(jù)的處理能力提出了更高要求。
三是價(jià)值密度低(Value)。以視頻為例,一部1小時的視頻,在連續(xù)不斷的監(jiān)控中,有用數(shù)據(jù)可能僅有1~2秒。如何通過強(qiáng)大的機(jī)器算法,更迅速地完成數(shù)據(jù)的價(jià)值“提純”,成為目前大數(shù)據(jù)背景下亟待解決的難題。
四是處理速度快(Velocity)。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。
什么是數(shù)據(jù)倉庫?
數(shù)據(jù)倉庫的概念創(chuàng)始人W.H.Inmon在《建立數(shù)據(jù)倉庫》中定義:面向主題的、集成的、相對穩(wěn)定的、隨時間不斷變化的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程。數(shù)據(jù)倉庫的目的,是構(gòu)建面向分析的集成化數(shù)據(jù)環(huán)境,為企業(yè)提供決策支持。
大數(shù)據(jù)&數(shù)據(jù)倉庫
現(xiàn)在大部分情況下其實(shí)大家說的是狹義的大數(shù)據(jù),就是專門指處理大數(shù)據(jù)的新技術(shù),新工具,例如分布式計(jì)算,分布式存儲等。數(shù)據(jù)倉庫是為企業(yè)提供決策支持的戰(zhàn)略集合,而大數(shù)據(jù)是技術(shù),是工具。
Why——為何要建設(shè)好數(shù)據(jù)倉庫
大數(shù)據(jù)的運(yùn)用,是金融得以快速發(fā)展的基礎(chǔ)。而良好的數(shù)據(jù)倉庫架構(gòu),可以協(xié)助這些應(yīng)用快速實(shí)施,優(yōu)化資源利用。
唯品金融在建設(shè)之初,就清楚地知道充分利用大數(shù)據(jù)的重要性。大數(shù)據(jù)的應(yīng)用,體現(xiàn)在金融用戶整個生命周期中——
在貸前階段,通過對所有客戶的分析和算法模型計(jì)算,我們分析哪些客戶更有金融產(chǎn)品需求,有針對性地在廣告資源和營銷資源上進(jìn)行重點(diǎn)投放;
在風(fēng)控審核階段,需要防止不符合要求的客戶通過審核,基于大數(shù)據(jù)構(gòu)建授信評分模型、欺詐模型來控制風(fēng)險(xiǎn);
在營銷階段,需要識別高價(jià)值用戶,利用大數(shù)據(jù)根據(jù)用戶的瀏覽和購買行為,對用戶進(jìn)行畫像描述,在運(yùn)營廣告位投放針對性的運(yùn)營信息,促進(jìn)用戶的開通和使用;
在貸后管理階段,根據(jù)客戶的購買行為及還款行為,提前預(yù)測還款風(fēng)險(xiǎn)情況,提前溝通,使壞賬始終維持在較低水平。
How——如何做好數(shù)據(jù)倉庫分層
在現(xiàn)代數(shù)據(jù)倉庫建設(shè)中,分層理論已得到廣泛應(yīng)用,它的價(jià)值包括但不限于:便于數(shù)據(jù)管理、清晰數(shù)據(jù)結(jié)構(gòu)、便于數(shù)據(jù)血緣追蹤、減少重復(fù)開發(fā)、簡化復(fù)雜問題、屏蔽原始數(shù)據(jù)異常。
?
唯品金融的數(shù)據(jù)倉庫,分為如下三層——基礎(chǔ)層、中間層、應(yīng)用層
1、基礎(chǔ)層(DW)
基礎(chǔ)層,也叫DW層,是最接近數(shù)據(jù)源中數(shù)據(jù)的一層。數(shù)據(jù)源中的數(shù)據(jù),經(jīng)過抽取、轉(zhuǎn)換、加載(即ETL)之后,裝入DW層。本層數(shù)據(jù),大多是按業(yè)務(wù)系統(tǒng)的分類方式分類的,這樣可以快速的和業(yè)務(wù)系統(tǒng)進(jìn)行對應(yīng)。
但是,這一層面的數(shù)據(jù)卻不完全等同于業(yè)務(wù)原始數(shù)據(jù)。在源數(shù)據(jù)裝入這一層時,要進(jìn)行一定的清洗(例如去掉明顯偏離正常水平的信息)、去重、提臟、業(yè)務(wù)提取、單位統(tǒng)一、砍字段(例如用于支撐前端系統(tǒng)工作但是在分析中不需要的字段,敏感信息字段)、業(yè)務(wù)判別等多項(xiàng)工作。
2、中間層(DM),是數(shù)據(jù)倉庫的核心
從DW層中獲得的數(shù)據(jù),按照主題建立各種數(shù)據(jù)模型。中間層建設(shè)原則如下——
* 中性,共享:中間層的主題要足夠抽象,不針對特定的應(yīng)用而設(shè)計(jì);
* 靈活,可擴(kuò)展:當(dāng)業(yè)務(wù)發(fā)生變化時易于擴(kuò)展,適應(yīng)復(fù)雜的實(shí)際業(yè)務(wù)情況;
* 穩(wěn)定性強(qiáng):能夠在長時間內(nèi)保持其穩(wěn)定性,滿足下游集市、分析、挖掘等的使用;
* 規(guī)范,易讀:分主題進(jìn)行模型設(shè)計(jì),易于讓使用人員理解和使用。
3、應(yīng)用層(ST),這一層提供數(shù)據(jù)產(chǎn)品使用的結(jié)果數(shù)據(jù)
在這里,主要提供給數(shù)據(jù)產(chǎn)品和數(shù)據(jù)分析使用的數(shù)據(jù),當(dāng)然也有將集市層單獨(dú)劃分一個層次的設(shè)計(jì),集市下面才是應(yīng)用。我們之所以把集市劃為應(yīng)用,是因?yàn)榧信c應(yīng)用結(jié)合得非常密切,所有的預(yù)處理數(shù)據(jù)在DM層已處理好,集市層直接運(yùn)用結(jié)果計(jì)算數(shù)據(jù)即可。
最終的應(yīng)用一般會存放在redis、mysql等系統(tǒng)中,供線上系統(tǒng)使用,也可能會存在Hive或者h(yuǎn)base中,供數(shù)據(jù)分析和數(shù)據(jù)挖掘使用。 我們經(jīng)常說的報(bào)表數(shù)據(jù),一般放在這里。
總結(jié)
在互聯(lián)網(wǎng)金融大數(shù)據(jù)建設(shè)中,數(shù)據(jù)分層建設(shè)是一個重要環(huán)節(jié),它決定的不僅是一個層次的問題,還直接影響到后續(xù)血緣分析、特征自動生成、元數(shù)據(jù)管理等一系列建設(shè)。層級劃分精簡,減少了數(shù)據(jù)處理流程,弱化了傳統(tǒng)數(shù)據(jù)倉庫數(shù)據(jù)模型設(shè)計(jì)的規(guī)范限制。能夠快速構(gòu)建大數(shù)據(jù)生產(chǎn)系統(tǒng)、響應(yīng)業(yè)務(wù)分析需求、迭代大數(shù)據(jù)分析能力、適應(yīng)互聯(lián)網(wǎng)公司業(yè)務(wù)發(fā)展節(jié)奏。但在建設(shè)之初,一定要把架構(gòu)搭好,并做好數(shù)據(jù)源管理,且充分了解行業(yè)發(fā)展。
本文分享了筆者對唯品金融數(shù)據(jù)倉庫的設(shè)計(jì)思路,未必適合所有行業(yè)公司。但方法是靈活的,理念是共通的,歡迎感興趣的朋友,分享心得,交流經(jīng)驗(yàn)。
?
轉(zhuǎn)載于:https://www.cnblogs.com/davidwang456/articles/9732801.html
總結(jié)
以上是生活随笔為你收集整理的数据仓库系列篇——唯品会大数据架构的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 农发行:BI数据平台建设
- 下一篇: 华数大数据平台解决方案