数据仓库与数据挖掘相关基础概念
摘錄及整理自互聯網:
名詞:
?BI(Business Intelligence):商業智能,
?
?DW(Data Warehouse):數據倉庫,詳見正文Q1部分。
?
?OLTP(On-Line Transaction Processing):聯機事務處理
也稱為面向交易的處理系統,其基本特征是顧客的原始數據可以立即傳送到計算中心進行處理,并在很短的時間內給出處理結果。這樣做的最大優點是可以即時地處理輸入的數據,及時地回答。也稱為實時系統(Real time System)。衡量聯機事務處理系統的一個重要性能指標是系統性能,具體體現為實時響應時間(Response Time),即用戶在終端上送入數據之后,到計算機對這個請求給出答復所需要的時間。
OLTP 數據庫旨在使事務應用程序僅寫入所需的數據,以便盡快處理單個事務。
?
?OLAP(On-Line Analytical Processing):聯機分析處理
????? OLAP是E.F.Codd于1993年提出的。?
OLAP理事會的定義:OLAP是一種軟件技術,他使分析人員能夠迅速、一致、交互地從各個方面觀察信息,以達到深入理解數據的目的,這些信息是從原始數據直接轉換過來的,他們以用戶容易理解的方式反映企業的真實情況。?
OLAP大部分策略都是將關系型的或普通的數據進行多維數據存貯,以便于進行分析,從而達到聯機分析處理的目的。這種多維DB也被看作一個超立方體,沿著各個維方向存貯數據,它允許用戶沿事物的軸線方便地分析數據,與主流業務型用戶相關的分析形式一般有切片和切塊以及下鉆、挖掘等操作。
?
?DataMart:數據集市,為了特定的應用目的或應用范圍,而從數據倉庫中獨立出來的一部分數據,也可稱為部門數據或主題數據(subjectarea)。在數據倉庫的實施過程中往往可以從一個部門的數據集市著手,以后再用幾個數據集市組成一個完整的數據倉庫。需要注意的就是再實施不同的數據集市時,同一含義的字段定義一定要相容,這樣再以后實施數據倉庫時才不會造成大麻煩。
?
?Data Mining:數據挖掘,詳見正文Q5部分
?
?ETL:ETL分別是“Extract”、“ Transform” 、“Load”三個單詞的首字母縮寫也就是“抽取”、“轉換”、“裝載”,但我們日常往往簡稱其為數據抽取。ETL是BI/DW(商務智能/數據倉庫)的核心和靈魂,按照統一的規則集成并提高數據的價值,是負責完成數據從數據源向目標數據倉庫轉化的過程,是實施數據倉庫的重要步驟。
?
?MetaData:元數據,元數據是描述數據倉庫內數據的結構和建立方法的數據。可將其按用途的不同分為兩類,技術元數據和商業元數據。技術元數據是數據倉庫的設計和管理人員用于開發和日常管理數據倉庫是用的數據。包括:數據源信息;數據轉換的描述;數據倉庫內對象和數據結構的定義;數據清理和數據更新時用的規則;源數據到目的數據的映射;用戶訪問權限,數據備份歷史記錄,數據導入歷史記錄,信息發布歷史記錄等。
?????? 商業元數據從商業業務的角度描述了數據倉庫中的數據。包括:業務主題的描述,包含的數據、查詢、報表;
?????? 元數據為訪問數據倉庫提供了一個信息目錄(informationdirectory),這個目錄全面描述了數據倉庫中都有什么數據、這些數據怎么得到的、和怎么訪問這些數據。是數據倉庫運行和維護的中心,數據倉庫服務器利用他來存貯和更新數據,用戶通過他來了解和訪問數據。
?
?
?Q1:什么是數據倉庫?
數據倉庫是一個面向主題的( Subject Oriented) 、集成的( Integrate) 、相對穩定的(NonVolatile) 、反映歷史變化( Time Variant)的數據集合,用于支持管理決策。對于數據倉庫的概念我們可以從兩個層次予以理:①數據倉庫用于支持決策,面向分析型數據處理,它不同于企業現有的操作型數據庫;②數據倉庫是對多個異構數據源的有效集成,集成后按照主
題進行了重組,并包含歷史數據,而且存放在數據倉庫中的數據一般不再修改。企業數據倉庫的建設是以現有企業業務系統和大量業務數據的積累為基礎。數據倉庫不是靜態的概念,只有把信息及時交給需要這些信息的使用者,供他們作出改善其業務經營的決策,信息才能發揮作用,信息才有意義。而把信息加以整理、歸納和重組,并及時提供給相應的管理決策人員是數據倉庫的根本任務。
?
?Q2:為什么要建立數據倉庫?
?????? 企業建立數據倉庫是為了填補現有數據存儲形式已經不能滿足信息分析的需要。數據倉庫理論中的一個核心理念就是:事務型數據和決策支持型數據的處理性能不同。
?????? 企業在它們的事務操作收集數據。在企業運作過程中:隨著定貨、銷售記錄的進行,這些事務型數據也連續的產生。為了引入數據,我們必須優化事務型數據庫。
?????? 處理決策支持型數據時,一些問題經常會被提出:哪類客戶會購買哪類產品?促銷后銷售額會變化多少?價格變化后或者商店地址變化后銷售額又會變化多少呢?在某一段時間內,相對其他產品來說哪類產品特別容易賣呢?哪些客戶增加了他們的購買額?哪些客戶又削減了他們的購買額呢?
?????? 事務型數據庫可以為這些問題作出解答,但是它所給出的答案往往并不能讓人十分滿意。在運用有限的計算機資源時常常存在著競爭。在增加新信息的時候我們需要事務型數據庫是空閑的。而在解答一系列具體的有關信息分析的問題的時候,系統處理新數據的有效性又會被大大降低。另一個問題就在于事務型數據總是在動態的變化之中的。決策支持型處理需要相對穩定的數據,從而問題都能得到一致連續的解答。
?????? 數據倉庫的解決方法包括:將決策支持型數據處理從事務型數據處理中分離出來。數據按照一定的周期(通常在每晚或者每周末),從事務型數據庫中導入決策支持型數據庫——既“數據倉庫”。數據倉庫是按回答企業某方面的問題來分“主題”組織數據的,這是最有效的數據組織方式。
?????? 另外,企業日常運作的信息系統一般是由多個傳統系統、不兼容數據源、數據庫與應用所共同構成的復雜數據集合,各個部分之間不能彼此交流。從這個層面看:目前運行的應用系統是用戶花費了很大精力和財力構建的、不可替代的系統,特別是系統的數據。而建立數據倉庫的目的就是要把這些不同來源的數據整合組織起來統一管理,從而做到數據的一致性與集成化,提供一個全面的,單一入口的解決方案。這個讓我聯想到SOA的理念,不過前者是數據層面的整合優化,后者是應用服務層面的整合優化。
?
?Q3:數據倉庫的一般結構是怎樣的?
? 1.體系結構:
(1)數據源是數據倉庫系統的基礎,是整個系統的數據源泉,通常包括企業內部信息和外部信息。
(2)數據的存儲與管理是整個數據倉庫系統的核心。數據倉庫按照數據的覆蓋范圍可以分為企業級數據倉庫和部門級數據倉庫(通常稱為數據集市) 。
(3)OLAP (On Line Analytical Processing)服務器對分析需要的數據進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,并發現趨勢。
(4)前端工具主要包括各種報表工具、查詢工具、數據分析工具、數據挖掘工具以及各種基于數據倉庫或數據集市的應用開發工具。
?
?2.事實表和維表
事實表和維表是多維模型中的兩個基本概念。
事實表是數據分析所對應的主要數據項,一般是企業內的某項業務或某個事件。事實表中的事實一般具有數據特性和可加性,事實表中可以存儲不同粒度的數據,同一主題中不同粒度的數據一般存儲在不同的事實表中。
維表中包含的一般是描述性的文本信息,這些文本信息將成為事實表的檢索條件。維表中的維屬性應該具體明確,體現出維層次的劃分,能夠成為分析型查詢的約束條件,這是數據倉庫與操作型應用在數據模型設計上的一個不同點。維表層次的級別數量取決于查詢 的粒度。在實際業務環境中,多維數據模型一般含有4~15維,更多的維數或更少的維數一般都很少見。在具體工作中,設計人員一定要根據企業的實際情況確定相應的維。
在多維模型中,事實表的主碼是組合碼,維表的主碼是簡單碼,事實表中與維表主碼相對應的各個組成部分是外碼。事實表通過與各維相對應的外碼值同維表聯系在一起。查詢時通過事實表和維表之間的這種對應關系。
?
? 3.數據組織結構:
????? 星型模型?????
多維數據建模以直觀的方式組織數據,并支持高性能的數據訪問。每一個多維數據模型由多個多維數據模式表示,每一個多維數據模式都是由一個事實表和一組維表組成的。多維模型最常見的是星形模式。在星形模式中,事實表居中,多個維表呈輻射狀分布于其四周,并與事實表連接。
位于星形中心的實體是指標實體,是用戶最關心的基本實體和查詢活動的中心,為數據倉庫的查詢活動提供定量數據。每個指標實體代表一系列相關事實,完成一項指定的功能。位于星形圖星角上的實體是維度實體,其作用是限制用戶的查詢結果,將數據過濾使得 從指標實體查詢返回較少的行,從而縮小訪問范圍。每個維表有自己的屬性,維表和事實表通過關鍵字相關聯。
?
????? 雪花模型
? 雪花模型是對星型模型的擴展,每個維度都可向外連接到多個詳細類別表。在這種
模式中。維度表除了具有星型模型中的維度表功能外,還連接上對事實表
進行詳細描述的洋細類別表。詳細類別表通過對事實表在有關維上的詳細描述,達到了
縮小事實表、提高查詢效率的目的。
?
?Q4:如何設計并建立數據倉庫?
設計數據倉庫的九個步驟
1)選擇合適的主題(所要解決問題的領域)
2)明確定義fact表
3)確定和確認維
4)choosing the facts
5)計算并存儲fact表中的衍生數據段
6)rounding out the dimension tables
7)choosing the duration of the database
8)the need to track slowly changing dimensions
9)確定查詢優先級和查詢模式。
技術上
硬件平臺:數據倉庫的硬盤容量通常要是操作數據庫硬盤容量的2-3倍。通常大型機具有更可靠的性能和和穩定性,也容易與歷史遺留的系統結合在一起;而PC服務器或UNIX服務器更加靈活,容易操作和提供動態生成查詢請求進行查詢的能力。選擇硬件平臺時要考慮的問題:是否提供并行的I/O吞吐?對多CPU的支持能力如何?
數據倉庫DBMS:他的存儲大數據量的能力、查詢的性能、和對并行處理的支持如何。
網絡結構:數據倉庫的實施在那部分網絡段上會產生大量的數據通信,需不需要對網絡結構進行改進。
實現上
建立數據倉庫的步驟
1)收集和分析業務需求
2)建立數據模型和數據倉庫的物理設計
3)定義數據源
4)選擇數據倉庫技術和平臺
5)從操作型數據庫中抽取、轉化、和裝載數據到數據倉庫
6)選擇訪問和報表工具
7)選擇數據庫連接軟件
8)選擇數據分析和數據展示軟件
9)更新數據倉庫
數據抽取、清理、轉換、和移植
1)數據轉換工具要能從各種不同的數據源中讀取數據。
2)支持平面文件、索引文件、和legacyDBMS。
3)能以不同類型數據源為輸入整合數據。
4)具有規范的數據訪問接口
5)最好具有從數據字典中讀取數據的能力
6)工具生成的代碼必須是在開發環境中可維護的
7)能只抽取滿足指定條件的數據,和源數據的指定部分
8)能在抽取中進行數據類型轉換和字符集轉換
9)能在抽取的過程中計算生成衍生字段
10)能讓數據倉庫管理系統自動調用以定期進行數據抽取工作,或能將結果生成平面文件
11)必須對軟件供應商的生命力和產品支持能力進行仔細評估
?
?Q5:什么是數據挖掘??
數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
? 數據挖掘是一門交叉學科,它把人們對數據的應用從低層次的簡單查詢,提升到從數據中挖掘知識,提供決策支持。在這種需求牽引下,匯聚了不同領域的研究者,尤其是數據庫技術、人工智能技術、數理統計、可視化技術、并行計算等方面的學者和工程技術人員,投身到數據挖掘這一新興的研究領域,形成新的技術熱點。
?
?Q6:如何進行數據挖掘?
1.?? 確定業務對象
清晰地定義出業務問題,認清數據挖掘的目的是數據挖掘的重要一步。挖掘的最后結構是不可預測的,但要探索的問題應是有預見的,為了數據挖掘而數據挖掘則帶有盲目性,是不會成功的。
2.?? 數據準備
1) 數據的選擇
搜索所有與業務對象有關的內部和外部數據信息,并從中選擇出適用于數據挖掘應用的數據。
2) 數據的預處理
研究數據的質量,為進一步的分析作準備。并確定將要進行的挖掘操作的類型。
3) 數據的轉換
將數據轉換成一個分析模型。這個分析模型是針對挖掘算法建立的。建立一個真正適合挖掘算法的分析模型是數據挖掘成功的關鍵.
3.?? 數據挖掘
對所得到的經過轉換的數據進行挖掘。除了完善從選擇合適的挖掘算法外,其余一切工作都能自動地完成。
4.?? 結果分析
解釋并評估結果.其使用的分析方法一般應作數據挖掘操作而定,通常會用到可視化技術。
5.?? 知識的同化
將分析所得到的知識集成到業務信息系統的組織結構中去。
?
?Q7:數據倉庫與數據挖掘的關系是怎樣的?
?數據倉庫和數據挖掘的關系數據倉庫和數據挖掘都是數據倉庫系統的重要組成部分, 它們既有聯系, 又有區別。
聯系是:
(1) 數據倉庫為數據挖掘提供了更好的、更廣泛的數據源。
(2) 數據倉庫為數據挖掘提供了新的支持平臺。
(3) 數據倉庫為更好地使用數據挖掘這個工具提供了方便。
(4) 數據挖掘為數據倉庫提供了更好的決策支持。
(5) 數據挖掘對數據倉庫的數據組織提出了更高的要求。
(6) 數據挖掘還為數據倉庫提供了廣泛的技術支持。
區別是:
(1) 數據倉庫是一種數據存儲和數據組織技術, 提供數據源。
(2) 數據挖掘是一種數據分析技術, 可針對數據倉庫中的數據進行分析。
???
?Q8:數據倉庫與數據挖掘在一些商業領域中的應用及現實意義
1)商品銷售。商業部門把數據視作一種競爭性的財富可能比任何其他部門顯得更為重要,為此需要把大型市場營銷數據庫演變成一個數據挖掘系統。科拉福特(Kraft)食品公司(KGF)是應用市場營銷數據庫的公司之一,該公司搜集了購買它商品的3000萬個用戶的名單,這是(KGF)通過各種促銷手段得到的。KGF定期向這些用戶發送名牌產品的優惠券,介紹新產品的性能和使用情況。該公司體會到了解自己商品的用戶越多,則購買和使用這些商品的機會也就越多,公司的營業狀況也就越好。
2)制造。許多公司不僅決策支持系統用于支持市場營銷活動,而且,由于市場競爭越演越烈,這些公司已使用決策支持系統來監視制造過程,有制造商聲稱已經指示它的各個辦事機構,在三年內把制造成本每年降低25%。不言而喻,該制造商經常收集各部件供應商的情況。因為,它們也必須遵循該制造商降低成本的戰略。為了對付來自各方的挑戰,該制造商已擁有一套“成本”決策支持系統,可以監視各供應商提供的零部件成本,以實現所制定的價格目標,這種應用需要收集有關各廠商連續一年來的產品成本信息,以便確定這種組織方式能否滿足原先制定的有關降價的戰略目標。
3)金融服務/信用卡。通用汽車公司(General?Motors)已經采用信用卡——GM卡,在該公司的數據庫中已擁有1200萬個持有信用卡的客戶。公司通過觀察,可以了解他們正在駕駛什么樣的汽車,下一步計劃購買什么樣的汽車及他們喜歡哪一類車輛。譬如說,一個持有信用卡的客戶表示對一種載貨卡車感興趣,公司就可以向卡車部門發出一個電子郵件,并把該客戶的信息告訴有關部門。
4)遠程通訊。許多遠程通訊的大公司近來突然發現它們面臨極大的競爭壓力,這在幾年前是不存在的。在過去,業務上并不需要他們密切注視市場動向,因為顧客的挑選余地有限,但是這種情況近來發生很大變化。各公司當前都在積極收集大量的顧客信息,向他們現有的客戶提供新的服務,開拓新的業務項目,以擴大他們的市場規模。從這些新的服務中,公司在短期內就可以取得更大的效益。
?
總結
以上是生活随笔為你收集整理的数据仓库与数据挖掘相关基础概念的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据仓库与数据挖掘 阶段考试复习题
- 下一篇: python学习之迭代器