ETL的四个基本过程.
轉(zhuǎn)自:http://www.chinabi.net/blog/user1/lastwood/archives/2006/888.html
What are the four basic data flow steps of an ETL process?
答:
Kimball 數(shù)據(jù)倉(cāng)庫(kù)構(gòu)建方法中, ETL的過(guò)程和傳統(tǒng)的實(shí)現(xiàn)方法有一些不同, 主要分為4個(gè)階段, 分別是抽取(extract),? 清洗(clean), 一致性處理(comform) 和交付(delivery). 堅(jiān)持ECCD.
1. Extract 階段的主要任務(wù)是:
讀取系統(tǒng)的數(shù)據(jù)模型.
連接并訪問(wèn)源系統(tǒng)的數(shù)據(jù).
變化數(shù)據(jù)捕獲
抽取數(shù)據(jù)到數(shù)據(jù)準(zhǔn)備區(qū).
2.clean階段的主要任務(wù)是:
清洗并增補(bǔ)列的屬性.
清洗并增補(bǔ)數(shù)據(jù)結(jié)構(gòu).
清洗并增補(bǔ)數(shù)據(jù)規(guī)則.
清洗并增補(bǔ)業(yè)務(wù)規(guī)則.
建立元數(shù)據(jù)庫(kù)描述數(shù)據(jù)質(zhì)量.
將清洗后的數(shù)據(jù)保存到數(shù)據(jù)準(zhǔn)備區(qū)
3. comform階段的主要任務(wù)是:
一致性處理業(yè)務(wù)標(biāo)簽, 即維度表中的描述屬性.
一致性處理業(yè)務(wù)度量及性能指標(biāo), 通常是事實(shí)表中的事實(shí).
去除重復(fù)數(shù)據(jù).
國(guó)際化處理.
將一致性處理后的數(shù)據(jù)保存到數(shù)據(jù)準(zhǔn)備區(qū).
4.delivery階段的主要任務(wù)是:
加載性行的和經(jīng)過(guò)雪花處理的維度表數(shù)據(jù).
產(chǎn)生日期維度.
加載退化維度.
加載子維度.
加載1.2.3型的緩慢變化維度.
處理遲到的維度和遲到的事實(shí).
加載多值維度.
加載有復(fù)雜層級(jí)結(jié)構(gòu)的維度表
處理事實(shí)表的代理鍵.
加載三個(gè)基本類型的事實(shí)性數(shù)據(jù).
加載和更新聚集.
將處理好的數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù).
從這個(gè)任務(wù)列表中可以看出, ETL的過(guò)程和數(shù)據(jù)倉(cāng)庫(kù)建模的過(guò)程結(jié)合的非常緊密. 換句話說(shuō), ETL系統(tǒng)的設(shè)計(jì)和目標(biāo)表的設(shè)計(jì)同時(shí)開(kāi)始. 通常來(lái)說(shuō), 數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)師和ETL系統(tǒng)設(shè)計(jì)師是同一個(gè)人.
總結(jié)
以上是生活随笔為你收集整理的ETL的四个基本过程.的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: grouping Function
- 下一篇: 在数据准备区中允许使用的数据结构有哪些,