数据仓库专题(6)-数据仓库、主题域、主题概念与定义
一、數(shù)據(jù)倉庫
????? 關(guān)于數(shù)據(jù)倉庫概念的標準定義業(yè)內(nèi)認可度比較高的,是由數(shù)據(jù)倉庫之父比爾·恩門(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立數(shù)據(jù)倉庫》)一書中所提出:
????? 中文定義:數(shù)據(jù)倉庫是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。
????? 英文定義:A data warehouse is a subject-oriented, integrated, nonvolatile, and time-variant collection of data in support of management’s decisions.
二、主題
????? 主題是與傳統(tǒng)數(shù)據(jù)庫的面向應(yīng)用相對應(yīng)的,是一個抽象概念,是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進行分析利用的抽象。每一個主題對應(yīng)一個宏觀的分析領(lǐng)域。在邏輯意義上,它是對應(yīng)企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對象。面向主題的數(shù)據(jù)組織方式, 就是在較高層次上對分析對象數(shù)據(jù)的一個完整并且一致的描 述,能刻畫各個分析對象所涉及的企業(yè)各項數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。所謂較高層次是相 對面向應(yīng)用的數(shù)據(jù)組織方式而言的, 是指按照主題進行數(shù)據(jù)組織的方式具有更高的數(shù)據(jù)抽象 級別。 與傳統(tǒng)數(shù)據(jù)庫面向應(yīng)用進行數(shù)據(jù)組織的特點相對應(yīng), 數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題進行組織的。主題是根據(jù)分析的要求來確定的。這與按照數(shù)據(jù)處理或應(yīng)用的要求來組織數(shù)據(jù)是不同的。
三、主題域
主題域通常是聯(lián)系較為緊密的數(shù)據(jù)主題的集合。可以根據(jù)業(yè)務(wù)的關(guān)注點,將這些數(shù)據(jù)主題劃分到不同的主題域。主題域的確定必須由最終用戶和數(shù)據(jù)倉庫的設(shè)計人員共同完成。
四、主題域、主題、實體間關(guān)系
主題設(shè)計是對主題域進一步分解,細化的過程。主題域下面可以有多個主題,主題還可以劃分成更多的子主題,而實體則是不可劃分的最小單位。主題域、主題、實體的關(guān)系如下圖所示:
?
五、關(guān)于主題域的爭議
曾經(jīng)在看到過關(guān)于主題域的另外一個定義方式:“主題域是對某個主題進行分析后確定的主題的邊界”。相關(guān)內(nèi)容如下文所示:
主題域是對某個主題進行分析后確定的主題的邊界。分析主題域,確定要裝載到數(shù)據(jù)倉庫的主題是 信息打包技術(shù)的第一步。而在進行數(shù)據(jù)倉庫設(shè)計時,一般是一次先建立一個主題或企業(yè)全部主題中的一部分,因此在大多數(shù)數(shù)據(jù)倉庫的設(shè)計過程中都有一個主題域的 選擇過程。主題域的確定必須由最終用戶和數(shù)據(jù)倉庫的設(shè)計人員共同完成。
比如,對于Adventure Works Cycle這種類型的公司管理層需要分析的主題一般包括供應(yīng)商主題、商品主題、客戶主題和倉庫主題。其中商品主題的內(nèi)容包括記錄超市商品的采購情況、商品 的銷售情況和商品的存儲情況;客戶主題包括的內(nèi)容可能有客戶購買商品的情況;倉庫主題包括倉庫中商品的存儲情況和倉庫的管理情況等,如圖3-31所示。
圖3-31? 根據(jù)業(yè)務(wù)情況確定的分析主題
確定主題邊界實際上需要進一步理解業(yè)務(wù)關(guān)系,因此在確定整個分析主題后,還需要對這些主題進行初步的細化才便于獲取每一個主題應(yīng)該具有的邊界。對于圖3-31的4個主題及其在企業(yè)中的業(yè)務(wù)關(guān)系可以確定邊界如圖3-32所示。
?
?
圖3-32? 主題域的劃分
經(jīng)過對以上內(nèi)容深入分析,發(fā)現(xiàn)此定義與:”主題域通常是聯(lián)系較為緊密的數(shù)據(jù)主題的集合“并不矛盾,只是所站的視角不同,“數(shù)據(jù)主題集合”的觀點從數(shù)據(jù)著眼,前提是已經(jīng)經(jīng)過分析、梳理列出所有可能的數(shù)據(jù)主題,此處數(shù)據(jù)主題是細粒度的,是從微觀到宏觀;“邊界論”的觀點中,某個主題是分析的主題,是宏觀概念,而非數(shù)據(jù)主題。
六、未完待續(xù)
? 分布式數(shù)據(jù)倉庫數(shù)據(jù)存儲模型設(shè)計進行中,后續(xù)會持續(xù)更新,請關(guān)注QQ群:分布式數(shù)據(jù)倉庫建模 398419457。
?
作者:張子良
出處:http://www.cnblogs.com/hadoopdev
本文版權(quán)歸作者所有,歡迎轉(zhuǎn)載,但未經(jīng)作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接,否則保留追究法律責(zé)任的權(quán)利。
總結(jié)
以上是生活随笔為你收集整理的数据仓库专题(6)-数据仓库、主题域、主题概念与定义的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Django中扩展Paginator实现
- 下一篇: svn Error:Wrong com