基础数据仓库环境搭建(一)数据仓库概述
數(shù)據(jù)倉庫簡介
數(shù)據(jù)倉庫,是為企業(yè)所有級別的決策制定過程,提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合。它是單個數(shù)據(jù)存儲,出于分析性報告和決策支持目的而創(chuàng)建。 為需要業(yè)務(wù)智能的企業(yè),提供指導(dǎo)業(yè)務(wù)流程改進(jìn)、監(jiān)視時間、成本、質(zhì)量以及控制.
數(shù)據(jù)倉庫的特點(diǎn)
效率足夠高
數(shù)據(jù)質(zhì)量
擴(kuò)展性
之所以有的大型數(shù)據(jù)倉庫系統(tǒng)架構(gòu)設(shè)計(jì)復(fù)雜,是因?yàn)榭紤]到了未來3-5年的擴(kuò)展性,這樣的話,未來不用太快花錢去重建數(shù)據(jù)倉庫系統(tǒng),就能很穩(wěn)定運(yùn)行。主要體現(xiàn)在數(shù)據(jù)建模的合理性,數(shù)據(jù)倉庫方案中多出一些中間層,使海量數(shù)據(jù)流有足夠的緩沖,不至于數(shù)據(jù)量大很多,就運(yùn)行不起來了。
面向主題
操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織的。主題是與傳統(tǒng)數(shù)據(jù)庫的面向應(yīng)用相對應(yīng)的,是一個抽象概念,是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象。每一個主題對應(yīng)一個宏觀的分析領(lǐng)域。數(shù)據(jù)倉庫排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。
企業(yè)數(shù)倉模型
實(shí)時數(shù)倉
隨著IT技術(shù)走向互聯(lián)網(wǎng)、移動化,數(shù)據(jù)源變得越來越豐富,在原來業(yè)務(wù)數(shù)據(jù)庫的基礎(chǔ)上出現(xiàn)了非結(jié)構(gòu)化數(shù)據(jù),比如網(wǎng)站log,IoT設(shè)備數(shù)據(jù),APP埋點(diǎn)數(shù)據(jù)等,這些數(shù)據(jù)量比以往結(jié)構(gòu)化的數(shù)據(jù)大了幾個量級,對ETL過程、存儲都提出了更高的要求;
互聯(lián)網(wǎng)的在線特性也將業(yè)務(wù)需求推向了實(shí)時化,隨時根據(jù)當(dāng)前客戶行為而調(diào)整策略變得越來越常見,比如大促過程中庫存管理,運(yùn)營管理等(即既有中遠(yuǎn)期策略型,也有短期操作型);同時公司業(yè)務(wù)互聯(lián)網(wǎng)化之后導(dǎo)致同時服務(wù)的客戶劇增,有些情況人工難以完全處理,這就需要機(jī)器自動決策。比如欺詐檢測和用戶審核。
總結(jié)來看,對實(shí)時數(shù)倉的的需求可以抽象成兩方面:實(shí)時產(chǎn)生結(jié)果、處理和保存大量異構(gòu)數(shù)據(jù)。
總結(jié)
以上是生活随笔為你收集整理的基础数据仓库环境搭建(一)数据仓库概述的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Hadoop,Yarn,Zookeepe
- 下一篇: 基础数据仓库环境搭建(二) Hadoop