数据仓库与数据挖掘的OLAP技术----韩家炜教授的《数据挖掘概念与技术》学习笔记
數據倉庫與數據挖掘的OLAP技術
1.數據倉庫
??概念:數據倉庫是一個面向主題的、集成的、隨時間而變化的、不容易丟失的數據集合,支持管理部門的決策過程.
??關鍵特征:
v?面向主題:圍繞一些主題;關注決策者的數據建模與分析,而不是集中于組織機構的日常操作和事務處理(這是數據庫的任務)。排除對于決策無用的數據,提供特定主題的簡明視圖。
v?數據集成:由異種數據源(關系數據庫,一般文件,聯機事務處理記錄)集成構成的;使用數據清理和數據集成技術。
v?隨時間而變化:數據倉庫的時間范圍比操作數據庫要長的多,每一個關鍵結構都隱式或顯式地包含時間元素。
v?數據不易丟失:數據是只讀的(除了初始轉載),不需要事務處理,恢復,和并發控制。
??建立數據倉庫
數據集成,數據清理和數據統一
對于異種數據庫的集成,傳統的數據庫做法:包裝程序和集成程序?--》查詢驅動
數據倉庫做法:異種源的信息預先集成?--》更新驅動
??操作數據庫系統(OLTP)與數據數據倉庫(OLAP)的區別
| 特征 | OLTP | OLAP |
| 用戶和系統的面向性 | 顧客 | 市場 |
| 數據內容 | 當前詳細的數據 | 歷史匯總的數據 |
| 數據庫設計 | ER模型,面向應用的數據庫設計 | 星型。雪花模型和面向主題的數據庫設計 |
| 視圖 | 當前的,企業內部的數據 | 經過演化的集成的數據 |
| 訪問模式 | 事務操作 | 事務查詢 |
| 任務單位 | 簡短的事務 | 復雜的查詢 |
| 數據訪問量 | 數十個 | 數百萬條 |
| 用戶數 | 數千個 | 數百個 |
| DB規模 | 100M-數GB | 100GB-數TB |
| 優先性 | 高性能,高可用性 | 高靈活,端點用戶自治 |
| 度量 | 事務吞吐量 | 查詢吞吐量,響應時間 |
??數據倉庫的存在價值
v?提高兩個系統的性能:操作數據庫是為已知的任務和負載設計的,數據倉庫涉及大量數據在匯總級的計算,在操作數據庫上處理OLAP查詢,可能大大降低操作人物的性能。
v?系統中數據的結構,內容和用法都不相同:操作數據庫只維護詳細的原始數據,而數據倉庫將一種源的數據統一,產生高質量的,純凈的和集成的數據用于決策
?
2.多維數據模型
??基本概念:
v?數據方:允許以多維數據建模和觀察,由維和事實定義
v?維:記錄的視角或視點,每個維都有一個表與之相關聯,稱為維表。
v?事實表:包括事實的名稱或度量以及每個相關維表的關鍵字。
??數據庫模式:
v?星型模型:一個大的事實表+一組小的維表
?
v?雪花模型:對星型模型的維表進行規范化,減少冗余
?
v?事實星座:多個事實表共享維表
?
??數據集市
數據倉庫搜集了關于整個組織的主題信息,是企業范圍的,采用事實星座模式
數據集市是數據倉庫的一個部門子集,針對選定主題,是部門范圍的,采用星型模式
??數據挖掘查詢語言(DMQL)
v?原語定義:
立方體定義?(事實表)
define?cube?<cube_name>?[<dimension_list>]:?????????
????<measure_list>
維定義?(維表)
define?dimension?<dimension_name>?as?(<attribute_or_subdimension_list>)
v?實例(圖2.6事實星座模式用DMQL定義)
?
??度量
v?概念:數據方的度量是一個數值函數,該函數可以對數據方的每一個點求值,通過對給定的各維-值對聚集數據,計算該店的度量值。
v?分類
2?分布的:將函數用于n個聚集值得到的結果,與將函數用于所有數據得到的結果一樣,則該函數可以用分布方式計算。如,count(),min(),?max(),?sum()
2?代數的:能夠由一個具有M個參數的代數函數計算,而每個參數都可以用一個分布聚集函數求得。如,avg(),max()
2?整體的:不存在一個具有M個(其中,M是常數)參數的代數函數進行這一計算。如,rank(),median()
??概念分層
????定義一個映射序列,將底層概念到更一般的高層概念
v?模式分層
?
v?集合分組分層
?
??OLAP操作
v?上卷:沿概念分層向上攀升,或維規約
v?下鉆:沿概念分層向下,或引入新的維
v?切片和切換:在給定的數據方的一個維進行選擇,導致一個子方
v?轉軸(旋轉):轉動數據的視角,提供數據的替代表示
?
?
3.數據倉庫的系統結構
??三層數據倉庫結構:
頂層:客戶(查詢/報告工具,分析工具,數據挖掘工具)
中間層:OLAP服務器(ROLAP,MOLAP)
底層:數據倉庫服務器
??數據倉庫模型
v?企業倉庫:收集關于主題的所有信息,跨越整個組織
v?數據集市:數據集市包含企業范圍數據的一個子集,范圍限于選定主題
v?虛擬倉庫:操作數據庫在視圖上的集合
??OLAP服務器類型
v?ROLAP:中間服務器,介于關系后端服務器和用戶前端工具之間,使用關系或拓充關系DBMS存放并管理數據倉庫,而OLAP中間件支持其余部分。
v?MOLAP:基于數組的多維存儲引擎,支持數據的多維視圖,將多維視圖直接映射到數據方數組結構,
v?HOLAP:較大的可規模性的ROLAP+快速運算的MOLAP
v?特殊的SQL服務器
?
4.數據倉庫的實現
??數據方的有效計算
v?一個n維數據方的方體,
若每個維都沒有分層,則方體總數為:2^n
若每個維不止一層,則方體總數是
v?部分物化:方體選擇計算
v?多路數組聚集(例2.12)
??索引OLAP數據
位圖索引,連接索引,復合連接索引
??元數據
v?數據倉庫存儲的描述:倉庫模式,視圖,維,層次結構,導出數據的定義等
v?操作元數據
v?數據倉庫結構
v?匯總用的算法
v?由操作環境到數據倉庫的映射
v?關于系統性能的數據
v?商務元數據
??數據倉庫后端工具和實用數據
v?數據提取
v?數據清理
v?數據變換
v?裝入
v?刷新
?
5.數據方技術的進一步發展
??發現驅動的探查
預計算的度量指出數據例外,在所有的聚集級指導用戶的數據分析過程,我們稱這種度量為例外指示符。例外是一個數據方單元值,基于某種統計模型,它顯著地不同于預計值。
?
?
6.由數據倉庫到數據挖掘
??數據倉庫的運用:
v?信息處理:基本查詢和基本的統計分析
v?分析處理:支持基本的OLAP操作
v?數據挖掘:找出隱藏的模式和關聯,構造分析模型,進行分類和預測
??數據挖掘,信息處理,聯機數據分析
v?信息處理基于查詢,可以發現有用的信息,直接反映存放在數據庫中的信息,或通過聚集函數可計算的信息;
v?OLAP是數據匯總,聚集工具,幫助簡化數據分析;
v?數據挖掘是自動發現隱藏在大量數據中的隱含模式和有趣只是。
總結
以上是生活随笔為你收集整理的数据仓库与数据挖掘的OLAP技术----韩家炜教授的《数据挖掘概念与技术》学习笔记的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 高等数学(第七版)同济大学 习题3-5
- 下一篇: SRTP参数及数据包处理过程