数据仓库与数据挖掘课后思考题整理
數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課后思考題整理
文章目錄
- 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課后思考題整理
- 1 數(shù)據(jù)倉庫概述
- 思考題
- 2 數(shù)據(jù)倉庫及其設(shè)計
- 思考題
- 實踐題
- 3 OLAP技術(shù)
- 思考題
- 課后書面作業(yè)
- 4 數(shù)據(jù)挖掘概述
- 思考題
- 5 關(guān)聯(lián)分析
- 思考題
- 實踐題
- 7 分類方法
- 思考題
- 實踐題
- 8 回歸和時序分析
- 思考題
- 實踐
- 10 聚類方法
- 思考題
1 數(shù)據(jù)倉庫概述
思考題
- 簡述數(shù)據(jù)倉庫有哪些主要的特征。
- ① 面向主題 ② 集成 ③ 穩(wěn)定性即非易失的 ④ 隨時間變化而隨時變化的
- 面向主題
-
主題是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時所關(guān)心的重點(diǎn)領(lǐng)域,也就是在一個較高的管理層次上對信息系統(tǒng)的數(shù)據(jù)按照某一具體的管理對象進(jìn)行綜合、歸類所形成的分析對象。
-
從數(shù)據(jù)組織的角度來看,主題是一些數(shù)據(jù)集合。
-
面向主題組織的數(shù)據(jù)特點(diǎn):
- 各個主題有完整、一致的內(nèi)容以便在此基礎(chǔ)上作分析處理。
- 主題之間有重迭的內(nèi)容,反映主題間的聯(lián)系。重迭是邏輯上的,不是物理上的。
- 各主題的綜合方式存在不同。
- 主題域應(yīng)該具有獨(dú)立性(數(shù)據(jù)是否屬于該主題有明確的界限)和完備性(對該主題進(jìn)行分析所涉及的內(nèi)容均要在主題域內(nèi))。
- 集成
- 數(shù)據(jù)倉庫中存儲的數(shù)據(jù)一般從企業(yè)原來已建立的數(shù)據(jù)庫系統(tǒng)中提取出來,但并不是原有數(shù)據(jù)的簡單拷貝,而是經(jīng)過了抽取、篩選、清理、轉(zhuǎn)換、綜合等工作。
- 穩(wěn)定性即非易失的
- 操作型數(shù)據(jù)庫系統(tǒng)中一般只存儲短期數(shù)據(jù),因此其數(shù)據(jù)是不穩(wěn)定的,它記錄的是系統(tǒng)中數(shù)據(jù)變化的瞬態(tài)。
- 數(shù)據(jù)倉庫中的數(shù)據(jù)大多表示過去某一時刻的數(shù)據(jù),主要用于查詢、分析,不像業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)庫那樣,要經(jīng)常進(jìn)行修改、添加,除非數(shù)據(jù)倉庫中的數(shù)據(jù)是錯誤的。
- 隨時間而變化即時變的
-
數(shù)據(jù)倉庫大多關(guān)注的是歷史數(shù)據(jù),其中數(shù)據(jù)是批量載入的,即定期從操作型應(yīng)用系統(tǒng)中接收新的數(shù)據(jù)內(nèi)容,這使得數(shù)據(jù)倉庫中的數(shù)據(jù)總是擁有時間維度。
-
數(shù)據(jù)倉庫的穩(wěn)定性和時變性并不矛盾,從大時間段來看,它是時變的,但從小時間段來看,它是穩(wěn)定的。
- 簡述數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的主要區(qū)別。*
- 傳統(tǒng)的數(shù)據(jù)庫技術(shù)是以單一的數(shù)據(jù)資源,即數(shù)據(jù)庫為中心,進(jìn)行聯(lián)機(jī)事務(wù)處理(OnLine Transaction Processing,OLTP)、批處理、決策分析等各種數(shù)據(jù)處理工作,主要的劃分為兩大類:操作型處理(事務(wù)處理)和分析型處理(或信息型處理)。
- 操作型數(shù)據(jù)和分析型數(shù)據(jù)的區(qū)別 :
| 細(xì)節(jié)的 | 綜合的 |
| 存取瞬間 | 歷史數(shù)據(jù) |
| 可更新 | 不可更新 |
| 事先可知操作需求 | 操作需求事先不可知 |
| 符合軟件開發(fā)生命周期 | 完全不同的生命周期 |
| 對性能的要求較高 | 對性能的要求較為寬松 |
| 某一時刻操作一個單元 | 某一時刻操作一個集合 |
| 事務(wù)驅(qū)動 | 分析驅(qū)動 |
| 面向應(yīng)用 | 面向分析 |
| 一個操作的數(shù)據(jù)量較小 | 一次操作的數(shù)據(jù)量較大 |
| 支持日常操作 | 支持管理需求 |
- 為什么需要分離的數(shù)據(jù)倉庫。*
- 提高兩個系統(tǒng)的性能。
- 數(shù)據(jù)倉庫的查詢通常是復(fù)雜的,涉及大量數(shù)據(jù)在匯總級的計算,可能需要特殊的數(shù)據(jù)組織、存取方法和基于多維視圖的實現(xiàn)方法。對數(shù)據(jù)記錄進(jìn)行只讀訪問,以進(jìn)行匯總和聚集。
- 如果OLTP和OLAP都在操作型數(shù)據(jù)庫上運(yùn)行,會大大降低數(shù)據(jù)庫系統(tǒng)的吞吐量。
- 數(shù)據(jù)倉庫與操作型數(shù)據(jù)庫分離是由于這兩種系統(tǒng)中數(shù)據(jù)的結(jié)構(gòu)、內(nèi)容和用法都不相同。
- 簡述數(shù)據(jù)倉庫的體系結(jié)構(gòu)。
-
數(shù)據(jù)倉庫系統(tǒng)的體系結(jié)構(gòu):
-
數(shù)據(jù)倉庫系統(tǒng)的組成**(數(shù)據(jù)倉庫系統(tǒng)通常指一個數(shù)據(jù)庫環(huán)境,而不是指一件產(chǎn)品。)
- 數(shù)據(jù)倉庫
- 是整個數(shù)據(jù)倉庫環(huán)境的核心,是數(shù)據(jù)存放的地方和提供對數(shù)據(jù)檢索的支持。相對于操作型數(shù)據(jù)庫來說其突出的特點(diǎn)是對海量數(shù)據(jù)的支持和快速的檢索技術(shù)。
- 抽取工具
- 把數(shù)據(jù)從各種各樣的存儲環(huán)境中提取出來,進(jìn)行必要的轉(zhuǎn)化、整理,再存放到數(shù)據(jù)倉庫內(nèi)。
- 其功能包括:刪除對決策應(yīng)用沒有意義的數(shù)據(jù),轉(zhuǎn)換到統(tǒng)一的數(shù)據(jù)名稱和定義,計算統(tǒng)計和衍生數(shù)據(jù),填補(bǔ)缺失數(shù)據(jù),統(tǒng)一不同的數(shù)據(jù)定義方式。
- 元數(shù)據(jù)
-
是關(guān)于數(shù)據(jù)的數(shù)據(jù),在數(shù)據(jù)倉庫中元數(shù)據(jù)位于數(shù)據(jù)倉庫的上層,是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)、位置和建立方法的數(shù)據(jù)。
-
通過元數(shù)據(jù)進(jìn)行數(shù)據(jù)倉庫的管理和通過元數(shù)據(jù)來使用數(shù)據(jù)倉庫。
- 數(shù)據(jù)集市
- **數(shù)據(jù)集市(Data Mart)**是在構(gòu)建數(shù)據(jù)倉庫的時候經(jīng)常用到的一個詞匯。
- 數(shù)據(jù)集市面向企業(yè)中的某個部門(或某個主題)是從數(shù)據(jù)倉庫中劃分出來的,這種劃分可以是邏輯上的,也可以是物理上的。
- 數(shù)據(jù)倉庫中存放了企業(yè)的整體信息,而數(shù)據(jù)集市只存放了某個主題需要的信息,其目的是減少數(shù)據(jù)處理量,使信息的利用更加快捷和靈活。
- OLAP服務(wù)
- 聯(lián)機(jī)分析處理(OnLine Analytical Processing,OLAP)服務(wù)指的是對存儲在數(shù)據(jù)倉庫中的數(shù)據(jù)提供分析的一種軟件,它能快速提供復(fù)雜數(shù)據(jù)查詢和聚集,并幫助用戶分析多維數(shù)據(jù)中的各維情況。
- 數(shù)據(jù)報表、數(shù)據(jù)分析和數(shù)據(jù)挖掘
- 為用戶產(chǎn)生的各種數(shù)據(jù)分析和匯總報表,以及數(shù)據(jù)挖掘結(jié)果。
- 簡述商務(wù)智能與數(shù)據(jù)倉庫的關(guān)系。
- 商務(wù)智能簡稱為BI(Business Intelligence),也稱為商業(yè)智能。
- 商務(wù)智能是融合了先進(jìn)信息技術(shù)與創(chuàng)新管理理念的結(jié)合體,對與企業(yè)有關(guān)的所有內(nèi)部和外部的數(shù)據(jù)進(jìn)行收集、匯總、過濾、分析、傳遞、綜合利用,使得數(shù)據(jù)轉(zhuǎn)換成為信息和知識的過程。商務(wù)智能可以整合歷史數(shù)據(jù),從多個角度和層面對數(shù)據(jù)展開深層次的分析、處理,為決策者提供相應(yīng)的決策依據(jù),提高決策效率和水平。
- 一般來說,上面所描述的是一個廣義上的商務(wù)智能概念,在這個概念層面上,數(shù)據(jù)倉庫是其中非常重要的組成部分,數(shù)據(jù)倉庫從概念上更多地側(cè)重在對企業(yè)各類信息的整合和存儲工作,包括了數(shù)據(jù)的遷移,數(shù)據(jù)的組織和存儲,數(shù)據(jù)的管理與維護(hù),這些稱之為后臺基礎(chǔ)性的數(shù)據(jù)準(zhǔn)備工作。
- 與之對應(yīng),狹義的商務(wù)智能概念則側(cè)重在數(shù)據(jù)查詢和報告、多維/聯(lián)機(jī)數(shù)據(jù)分析、數(shù)據(jù)挖掘和數(shù)據(jù)可視化工具這些平常稱之為前臺的數(shù)據(jù)分析應(yīng)用方面,其中數(shù)據(jù)挖掘是商務(wù)智能中比較高層次的一種應(yīng)用。
-
下列關(guān)于數(shù)據(jù)倉庫的敘述中,哪些是錯誤的。
-
數(shù)據(jù)倉庫通常采用三層體系結(jié)構(gòu)。
- 正確
- 區(qū)分?jǐn)?shù)據(jù)倉庫與數(shù)據(jù)倉庫系統(tǒng)!整個數(shù)據(jù)倉庫系統(tǒng)包含四層結(jié)構(gòu)!
-
底層的數(shù)據(jù)倉庫服務(wù)器一般是一個關(guān)系型數(shù)據(jù)庫系統(tǒng)。
- 正確
-
數(shù)據(jù)倉庫中間層OLAP服務(wù)器只能采用關(guān)系型OLAP。
- 錯誤
- 數(shù)據(jù)倉庫中間層OLAP服務(wù)器可以是關(guān)系型OLAP也可以是多維OLAP服務(wù)器。
-
數(shù)據(jù)倉庫前端分析工具中包括報表工具。
- 正確
-
數(shù)據(jù)倉庫是隨時間變化的,以下敘述那些是錯誤的。
-
數(shù)據(jù)倉庫隨時間變化不斷增加新的數(shù)據(jù)內(nèi)容。
- 正確
-
捕捉到的新數(shù)據(jù)會覆蓋原來的快照。
- ???
-
數(shù)據(jù)倉庫隨時間變化不斷刪去舊的數(shù)據(jù)內(nèi)容。
- 錯誤
- 刪除超過期限(如5~10年)的數(shù)據(jù),因此數(shù)據(jù)倉庫中的數(shù)據(jù)也具有時變性,只是時變周期遠(yuǎn)大于應(yīng)用數(shù)據(jù)庫。
-
數(shù)據(jù)倉庫中包含大量的綜合數(shù)據(jù),這些綜合數(shù)據(jù)會隨著時間變化不斷地進(jìn)行重新綜合。
- 正確
-
某超市建立了一個交易系統(tǒng),可以統(tǒng)計每天、每周的銷售量和銷售額,他說這就是一個數(shù)據(jù)倉庫,這個說法正確嗎?為什么?
- 并不是數(shù)據(jù)倉庫
- 這是一個操作性應(yīng)用系統(tǒng),其數(shù)據(jù)是隨時變化的,定期的向相關(guān)數(shù)據(jù)倉庫提供批量新的數(shù)據(jù);且其并不穩(wěn)定;且這個系統(tǒng)是所有數(shù)據(jù)的記錄,并不滿足數(shù)據(jù)倉庫的集成特征。
2 數(shù)據(jù)倉庫及其設(shè)計
思考題
- 試述常用的數(shù)據(jù)倉庫構(gòu)建模式。
- 先整體再局部的構(gòu)建模式
-
先創(chuàng)建企業(yè)數(shù)據(jù)倉庫,再從數(shù)據(jù)倉庫中分離部門業(yè)務(wù)的數(shù)據(jù)集市。
-
優(yōu)點(diǎn):
數(shù)據(jù)規(guī)范化程度高,最小化數(shù)據(jù)冗余與不一致性;便于全局?jǐn)?shù)據(jù)的分析和挖掘。
-
缺點(diǎn):
建設(shè)周期長、見效慢;風(fēng)險程度相對大。 -
這種構(gòu)建模式通常在技術(shù)成熟、業(yè)務(wù)過程理解透徹的情況下使用
- 先局部再整體的構(gòu)建模式
- 先將企業(yè)各部門的決策子目標(biāo)建立各自的數(shù)據(jù)集市,逐步擴(kuò)充形成數(shù)據(jù)倉庫,實現(xiàn)對企業(yè)級決策的支持。
- 優(yōu)點(diǎn):
投資少、見效快;在設(shè)計上相對靈活;易于實現(xiàn)。 - 缺點(diǎn):
數(shù)據(jù)需逐步清洗,信息需進(jìn)一步提煉,如果數(shù)據(jù)在抽取時有一定的重復(fù)工作,還會有一定級別的冗余和不一致性。
- 簡述數(shù)據(jù)設(shè)計步驟。
- 數(shù)據(jù)倉庫系統(tǒng)開發(fā)是一個經(jīng)過不斷循環(huán)、反饋而使系統(tǒng)不斷增長與完善的過程。在數(shù)據(jù)倉庫的開發(fā)過程中,自始自終要求決策人員和開發(fā)者的共同參與和密切協(xié)作。步驟如下:
- 如何進(jìn)行數(shù)據(jù)倉庫的需求分析。
- 主題分析:主題是用戶提出分析決策的目標(biāo)和需求。
- 主題、指標(biāo),維度,粒度
- 數(shù)據(jù)分析:數(shù)據(jù)倉庫系統(tǒng)以數(shù)據(jù)為核心
-
數(shù)據(jù)源分析
-
數(shù)據(jù)數(shù)量分析
-
數(shù)據(jù)質(zhì)量分析
- 環(huán)境要求分析:滿足要求的系統(tǒng)平臺和環(huán)境
- 設(shè)備、網(wǎng)絡(luò)、數(shù)據(jù)、接口、軟件
- 什么是數(shù)據(jù)倉庫建模,其主要工作有哪些?
- 數(shù)據(jù)倉庫建模是指設(shè)計數(shù)據(jù)倉庫的邏輯模型。
- 數(shù)據(jù)倉庫建模的主要工作
- 在需求分析上,確定系統(tǒng)所包含的主題域并加以描述
- 確定事實表的粒度
- 確定數(shù)據(jù)分割策略
- 構(gòu)建數(shù)據(jù)倉庫中各主題的多維數(shù)據(jù)模型及其聯(lián)系
- 在需求分析上,確定系統(tǒng)所包含的主題域并加以描述
- 主題選取的原則是優(yōu)先實施管理者目前最迫切需求、最關(guān)心的主題。主題內(nèi)容的描述包括主題的公共鍵、主題之間的聯(lián)系和各主題的屬性。
- 確定事實表的粒度
- 事實表的粒度能夠表達(dá)數(shù)據(jù)的詳細(xì)程度。從用途的不同來說,事實表可以分為以下三類:
- 原子事實表:是保存最細(xì)粒度數(shù)據(jù)的事實表,也是數(shù)據(jù)倉庫中保存原子信息的場所。
- 聚集事實表:是原子事實表上的匯總數(shù)據(jù),也稱為匯總事實表。
- 合并事實表:是指將位于不同事實表中處于相同粒度的事實進(jìn)行組合建模而成的一種事實表。
- 確定事實表粒度的主要作用:
- 可以確定維度是否與該事實表相關(guān)。維度和事實表應(yīng)在同一粒度上。
- 在定義好事實表的粒度后,能更清楚地確定哪個事實與該事實表相關(guān)。
- 確定數(shù)據(jù)分割策略
- **分割是指把邏輯上是統(tǒng)一整體的數(shù)據(jù)分割成較小的、可以獨(dú)立管理的物理單元進(jìn)行存儲,**以便能分別處理,從而提高數(shù)據(jù)處理的效率。
- 分割可以按時間、地區(qū)、業(yè)務(wù)類型等多種標(biāo)準(zhǔn)來進(jìn)行,也可以按自定義標(biāo)準(zhǔn),分割之后小單元的數(shù)據(jù)相對獨(dú)立,處理起來更快更容易。但在多數(shù)情況下,數(shù)據(jù)分割采用的標(biāo)準(zhǔn)不是單一的,而是多個標(biāo)準(zhǔn)的組合。一般要考慮以下幾方面的因素:
- 數(shù)據(jù)量大小
- 數(shù)據(jù)分析處理的實際情況
- 簡單易行
- 與粒度的劃分策略相統(tǒng)一
- 數(shù)據(jù)的穩(wěn)定性。
- 構(gòu)建數(shù)據(jù)倉庫中各主題的多維數(shù)據(jù)模型及其聯(lián)系
- 由于數(shù)據(jù)倉庫目前大多是使用關(guān)系數(shù)據(jù)庫來實現(xiàn)的,所以本章主要討論基于關(guān)系數(shù)據(jù)庫的數(shù)據(jù)倉庫建模方法。
- 星形模式
- 雪花模式
- 事實星座模式
- 實現(xiàn)多維數(shù)據(jù)模型的方式有哪些。
- 如何構(gòu)建星形模式。
- 維表設(shè)計
-
維表用于存放維信息,包括維的屬性(列)和維的層次結(jié)構(gòu)。一個維用一個維表表示。維表通常具有以下數(shù)據(jù)特征。
- 維表通常使用解析過的時間、名字或地址元素,這樣可以使查詢更靈活。例如時間可分為年份、季度、月份和日期等,地址可用地理區(qū)域來區(qū)分,如國家、省、市、縣等。
- 維表通常不使用業(yè)務(wù)數(shù)據(jù)庫的關(guān)鍵字作為主鍵,而是對每個維表另外增加一一個額外的字段作為主鍵來識別維表中的對象。在維表中新設(shè)定的鍵也稱為代理鍵。
- 維表中可以包含隨時間變化的字段,當(dāng)數(shù)據(jù)集市或數(shù)據(jù)倉庫的數(shù)據(jù)隨時間變化而有額外增加或改變時,維表的數(shù)據(jù)行應(yīng)有標(biāo)識此變化的字段。
- 維表中維的類型包括結(jié)構(gòu)維、信息維、分區(qū)維、分類維、退化維、- -致維和父子維多種類型。
- 概念分層
- 維表中維一般包含著層次關(guān)系, 也稱為概念分層,如在時間維上,按照“年份一季度一月份”形成了一個層次,其中年份、季度、月份成為這個層次的三個級別。
- 事實表設(shè)計
- 事實表主鍵的每個元素都是維表的外鍵。通過事實表將各種不同的維表連接起來,各個維表都連接到中央事實表。維表中的對象通過事實表與另一個維表中的對象相關(guān)聯(lián),這樣就能建立各個維表對象之間的聯(lián)系。
- 試比較星形模式、雪花模式、事實星座模式的區(qū)分與聯(lián)系。
- 星形模式是最基本的模式,一個星形模式有多個維表,但只有一個事實表,對維表進(jìn)行規(guī)范化,構(gòu)建多層維表,就成為雪花模式。如果有多個事實表,且共享多個維表就是事實星座模式。
實踐題
-
有一個學(xué)生成績管理系統(tǒng),其中含有學(xué)生的學(xué)號、姓名、性別、籍貫、課程和分?jǐn)?shù)等信息,現(xiàn)在要構(gòu)建一個數(shù)據(jù)倉庫,其主題是學(xué)生成績。根據(jù)你的設(shè)計,回答下列問題。
-
給出該數(shù)據(jù)倉庫中事實表的結(jié)構(gòu)。
-
給出該數(shù)據(jù)倉庫中所有維表的結(jié)構(gòu)。
-
畫出該數(shù)據(jù)倉庫的模型,分析它屬于哪種模式。
3 OLAP技術(shù)
思考題
- OLAP的概念及特點(diǎn)。
-
什么是OLAP
- OLAP(OnLine Analytical Processing, 聯(lián)機(jī)分析處理),1993年由E.F.Codd提出,是針對某個特定的主題進(jìn)行聯(lián)機(jī)數(shù)據(jù)訪問、處理和分析,通過直觀的方式從多個維度、多種數(shù)據(jù)綜合程度將系統(tǒng)的運(yùn)營情況展現(xiàn)給使用者。
- OLAP委員會給予OLAP的定義為,OLAP是使分析人員、管理人員或執(zhí)行人員**(知識工人)**能夠從多角度對信息進(jìn)行快速、一致、交互地存取,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)。
-
OLAP技術(shù)的特性
- **多維性:**使用OLAP技術(shù),可以從多個角度觀察數(shù)據(jù),從不同的主題分析數(shù)據(jù),最終直觀地得到有效的信息。
- **可理解性:**處理業(yè)務(wù)邏輯和統(tǒng)計分析,同時對目標(biāo)用戶而言足夠簡單。
- 交互性: OLAP幫助用戶個性化的分析數(shù)據(jù)。
- **快速性:**反應(yīng)速度。
- 簡述OLAP與數(shù)據(jù)倉庫的關(guān)系。
- 建立數(shù)據(jù)倉庫的目的是為了支持管理中的決策制定過程,OLAP服務(wù)作為一種多維查詢和分析工具,是數(shù)據(jù)倉庫功能的自然擴(kuò)展,也是數(shù)據(jù)倉庫中的大容量數(shù)據(jù)得以有效利用的重要保障。
- 在數(shù)據(jù)倉庫中,OLAP和數(shù)據(jù)倉庫是密不可分的,但是兩者具有不同的概念。
- 數(shù)據(jù)倉庫是一個包含企業(yè)歷史數(shù)據(jù)的大規(guī)模數(shù)據(jù)庫,這些歷史數(shù)據(jù)主要用于對企業(yè)的經(jīng)營決策提供分析和支持。
- OLAP技術(shù)則利用數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行聯(lián)機(jī)分析,OLAP利用多維數(shù)據(jù)集和數(shù)據(jù)聚集技術(shù)對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行組織和匯總,用聯(lián)機(jī)分析和可視化工具對這些數(shù)據(jù)進(jìn)行評價,將復(fù)雜的分析查找結(jié)果快速地返回用戶。
- OLAP技術(shù)與數(shù)據(jù)倉庫的結(jié)合可以較好地解決傳統(tǒng)決策支持系統(tǒng)既要處理大量數(shù)據(jù),又需要進(jìn)行大量數(shù)據(jù)計算的問題,進(jìn)而滿足決策支持或多維環(huán)境特定的查詢和報表需求。
- 簡述OLAP的體系結(jié)構(gòu)與分類。
- 主流的OLAP數(shù)據(jù)組織方式有3種:
-
基于關(guān)系型數(shù)據(jù)庫ROLAP(Relational OLAP)
-
基于多維數(shù)據(jù)庫MOLAP(Multidimensional OLAP)
-
基于關(guān)系型數(shù)據(jù)庫和多維數(shù)據(jù)庫的混合方式HOLAP(Hybrid OLAP)
- ROLAP(Relational OLAP)表示基于的數(shù)據(jù)存儲在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫中。
- 每個ROLAP分析模型基于關(guān)系型數(shù)據(jù)庫中一些相關(guān)的表,這些相關(guān)的表中有反映觀察角度的維度表和含有度量的事實表。
- 這些表在關(guān)系型數(shù)據(jù)庫中通過外鍵相互關(guān)聯(lián),典型的組織模型有星形模式、雪花模式和事實星座模式。
- MOLAP(Multidimensional OLAP)表示基于的數(shù)據(jù)存儲在多維數(shù)據(jù)庫中。多維數(shù)據(jù)庫有時也稱數(shù)據(jù)立方體。
- 多維數(shù)據(jù)庫可以用多維數(shù)組表示。例如,一個包含有時間維、地區(qū)維、品牌維和銷售量的數(shù)據(jù)集通過多維數(shù)組可表示成:(時間維、地區(qū)維、品牌維、銷售量)
- 通過這種方式表示數(shù)據(jù)可以極大提高查詢的性能。
- HOLAP(Hybrid OLAP)表示基于的數(shù)據(jù)存儲是混合模式的。ROLAP和MOLAP兩種方式各有利弊,為了同時兼顧它們的優(yōu)點(diǎn),提出一種HOLAP將數(shù)據(jù)存儲混合。
- 通常將粒度較大的高層數(shù)據(jù)存儲在多維數(shù)據(jù)庫中,粒度較小的細(xì)節(jié)層數(shù)據(jù)存儲在關(guān)系型數(shù)據(jù)庫中。
- 這種HOLAP具有更好的靈活性。
- 簡述OLAP的基本操作。
- OLAP的基本分析操作主要包括對多維數(shù)據(jù)進(jìn)行切片、切塊、旋轉(zhuǎn)、上卷和下鉆等,這些分析操作使得用戶可以從多角度、多側(cè)面觀察數(shù)據(jù)。
- 在多維數(shù)據(jù)集的某一維上選定一個維成員的操作稱為切片。
- 選定多維數(shù)據(jù)集的一個三維子集的方法稱為切塊。
- **旋轉(zhuǎn)(又稱轉(zhuǎn)軸,Pivot)**是一種視圖操作,即改變一個報告或頁面顯示的維方向,可以得到不同視角的數(shù)據(jù),即轉(zhuǎn)動數(shù)據(jù)的視角以提供數(shù)據(jù)的替代表示。
- 上卷操作通過維的概念分層向上攀升或者通過維歸約(即將4個季度的值加到一起為一年的結(jié)果)在數(shù)據(jù)立方體上進(jìn)行聚集。
- 下鉆是上卷的逆操作,它由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù)。
- 什么是物化,有哪些方法?
- 所謂物化就是預(yù)計算并存儲數(shù)據(jù)立方體的方體。物化方法有不物化、全物化和部分物化。
- 不物化方法
- 不預(yù)計算任何“非基本”方體。這可能導(dǎo)致回答查詢時,因進(jìn)行昂貴的多維聚集計算,速度非常慢。
- 全物化方法
- 物化是指對維集合的所有****可能組合都進(jìn)行聚集。
- 最為簡單的全物化方法是通過計算n維事實表中的數(shù)據(jù),依次得到2n個聚集方體,這可能產(chǎn)生維災(zāi)難。
- 部分物化方法
- 部分物化是指在部分維及其相關(guān)層次上進(jìn)行聚集,即從數(shù)據(jù)立方體的所有方體中選擇一個子集進(jìn)行物化。在一般情況下,通常20%的聚集就能夠滿足80%的查詢需要。如何確定該20%的聚集是提高聚集效率的關(guān)鍵。部分物化是存儲空間和響應(yīng)時間二者之間的很好折中。
課后書面作業(yè)
- 假設(shè)數(shù)據(jù)倉庫包含3個維: time (時間)、doctor (醫(yī)生)和patient (病人),兩個度量為count(診治次數(shù))和charge (一次診治的收費(fèi)金額)。由基本方體(day,doctor,patient)開始,列出2013 年每位醫(yī)生的收費(fèi)總額,應(yīng)當(dāng)執(zhí)行哪些OLAP基本操作?
- 看作業(yè)
-
假設(shè)University數(shù)據(jù)倉庫包含student (學(xué)生)、course (課程)和teacher (教程) 3個維,度量為avg_ grade。在最低的概念層(如對于給定的學(xué)生、課程和教師的組合),度量avg. grade存放學(xué)生的實際成績,在較高概念層,avg_ grade 存放學(xué)生的給定組合的平均成績。回答以下問題。
-
假設(shè)University數(shù)據(jù)倉庫中,student 維的概念分層為:學(xué)生<年級<專業(yè)<學(xué)院<All; course維的概念分層為:課程<課程類別<專業(yè)<學(xué)院<All; teacher 維的概念分層為:教師<職稱<學(xué)院<All。給出該數(shù)據(jù)倉庫的星形模式圖,根據(jù)要求設(shè)計數(shù)據(jù)倉庫的事實表和維表的結(jié)構(gòu)。
-
在University數(shù)據(jù)倉庫中,數(shù)據(jù)立方體包含多少個方體( 包括基本方體和頂點(diǎn)方體) ?
- 看作業(yè)
4 數(shù)據(jù)挖掘概述
思考題
- 簡述數(shù)據(jù)挖掘的定義、知識表示與任務(wù)。
- 定義
- 從技術(shù)角度看,**數(shù)據(jù)挖掘(Data Mining,簡稱DM)**是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實際數(shù)據(jù)中,提取隱含在其中的、人們所不知道的、但又是潛在有用的信息和知識的過程。
- 從商業(yè)應(yīng)用角度看,數(shù)據(jù)挖掘是一種嶄新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)化、分析和模式化處理,從中提取輔助商業(yè)決策的關(guān)鍵知識。
- 知識表達(dá)
- 規(guī)則
- 規(guī)則知識由前提條件和結(jié)論兩部分組成,前提條件由字段(或?qū)傩?#xff09;的取值的合取(與,AND,∧)析取(或,OR,∨)組合而成,結(jié)論為決策字段(或?qū)傩?#xff09;的取值或者類別組成。
- 如:if A=a ∧ B=b then C=c,或者A(a) AND B(b) → C?。
- 決策樹
- 決策樹采用樹的形式表示知識,葉子結(jié)點(diǎn)表示結(jié)論屬性的類別,非葉子結(jié)點(diǎn)表示條件屬性,每個非葉子結(jié)點(diǎn)引出若干條分支線,表示該條件屬性的各種取值。
- 一棵決策樹可以轉(zhuǎn)換成若干條規(guī)則。
- 知識基
- 通過數(shù)據(jù)挖掘原表中的冗余屬性和冗余記錄,得到對應(yīng)的濃縮數(shù)據(jù),稱為知識基。它是原表的精華,很容易轉(zhuǎn)換成規(guī)則知識。
- 網(wǎng)絡(luò)權(quán)值
- 神經(jīng)網(wǎng)絡(luò)方法得到的知識是一個網(wǎng)絡(luò)結(jié)構(gòu)和各邊的權(quán)值,這組網(wǎng)絡(luò)權(quán)值表示對應(yīng)的知識。
- 主要任務(wù)
-
在缺乏強(qiáng)有力的數(shù)據(jù)分析工具的情況下,歷史數(shù)據(jù)變成了“數(shù)據(jù)墳?zāi)埂薄R簿褪钦f極有價值的信息被“淹沒”在海量數(shù)據(jù)堆中。
-
數(shù)據(jù)挖掘的兩個高級目標(biāo)是預(yù)測和描述。
- 預(yù)測是指用一些變量或數(shù)據(jù)庫的若干已知字段預(yù)測其他感興趣的變量或字段的未知或未來的值。
- 描述是找到描述數(shù)據(jù)的可理解模式。
- 根據(jù)發(fā)現(xiàn)知識的不同,可以將數(shù)據(jù)挖掘的任務(wù)歸納為以下幾類:
- 關(guān)聯(lián)分析:關(guān)聯(lián)是某種事物發(fā)生時其他事物會發(fā)生的這樣一種聯(lián)系。例如每天購買啤酒的人也有可能購買尿布,比重有多大,可以通過關(guān)聯(lián)的支持度和置信度來描述。關(guān)聯(lián)分析的目的是挖掘隱藏在數(shù)據(jù)間的滿足一定條件的關(guān)聯(lián)關(guān)系,如:
buy(computer)→buy(software)
關(guān)聯(lián)規(guī)則表示顧客購買計算機(jī)和軟件之間的關(guān)聯(lián)關(guān)系。
-
**時序分析:**與關(guān)聯(lián)分析不同,時序分析產(chǎn)生的時序序列是一種與時間相關(guān)的縱向聯(lián)系。例如今天銀行調(diào)整利率,明天股市的變化。
-
**分類:**按照分析對象的屬性、特征,建立不同的組類來描述事物。例如銀行部門根據(jù)以前的數(shù)據(jù)將客戶分成了不同的類別,現(xiàn)在就可以根據(jù)這些來區(qū)分新申請貸款的客戶,以采取相應(yīng)的貸款方案。
-
**聚類:**識別出分析對內(nèi)在的規(guī)則,按照這些規(guī)則把對象分成若干類。例如將申請人分為高度風(fēng)險申請者,中度風(fēng)險申請者,低度風(fēng)險申請者。
-
**預(yù)測:**把握分析對象發(fā)展的規(guī)律,對未來的趨勢做出預(yù)見。例如對未來經(jīng)濟(jì)發(fā)展的判斷。
數(shù)據(jù)挖掘的各項任務(wù)不是獨(dú)立存在的,在數(shù)據(jù)挖掘中互相聯(lián)系,發(fā)揮作用。
- 簡述數(shù)據(jù)數(shù)據(jù)挖掘與數(shù)據(jù)倉庫及OLAP的關(guān)系。
- 相同點(diǎn)
- 數(shù)據(jù)挖掘與OLAP都是數(shù)據(jù)分析工具。
- 不同點(diǎn)
- 數(shù)據(jù)挖掘是挖掘型的,建立在各種數(shù)據(jù)源的基礎(chǔ)上,重在發(fā)現(xiàn)隱藏在數(shù)據(jù)深層次的對人們有用的模式,并做出有效的預(yù)測性分析。
- OLAP是驗證型的,OLAP更多地依靠用戶輸入問題和假設(shè),建立在多維數(shù)據(jù)的基礎(chǔ)之上 。
- 數(shù)據(jù)挖掘和OLAP具有一定的互補(bǔ)性。
- 簡述數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)。
- 實現(xiàn)用戶與系統(tǒng)交互得到用戶滿意的模式核心,提供挖掘模塊提供所需的目標(biāo)數(shù)據(jù)集數(shù)據(jù)的信息源。
- 簡述數(shù)據(jù)挖掘的基本過程。
- ???
- 簡述有哪些數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)源系統(tǒng)的集成方案。
- **不耦合:**是指系統(tǒng)不利用數(shù)據(jù)源系統(tǒng)的任何功能;
- **松散耦合:**是指利用數(shù)據(jù)源系統(tǒng)的某些功能。
- **半緊密耦合:**是指將數(shù)據(jù)挖掘系統(tǒng)連接到數(shù)據(jù)源系統(tǒng),在數(shù)據(jù)源系統(tǒng)中實現(xiàn)并存儲一些基本數(shù)據(jù)挖掘計算和中間結(jié)果;
- **緊密耦合:**是指數(shù)據(jù)挖掘系統(tǒng)平滑地集成到數(shù)據(jù)源系統(tǒng),數(shù)據(jù)挖掘系統(tǒng)作為數(shù)據(jù)源系統(tǒng)的一個功能組件,數(shù)據(jù)挖掘任務(wù)根據(jù)數(shù)據(jù)源系統(tǒng)的功能進(jìn)行優(yōu)化與實現(xiàn)。
- 不耦合是一種糟糕的設(shè)計,松散耦合比不耦合好,半緊密耦合是一種折中方案,和緊密耦合是常見的兩種系統(tǒng)的集成方案。
- 簡述有哪些數(shù)據(jù)清理方法。
- 處理空缺值、消除噪聲數(shù)據(jù)、消除不一致
- 簡述有哪些數(shù)據(jù)集成方法。
- 數(shù)據(jù)集成是將多個數(shù)據(jù)源中的數(shù)據(jù)整合到一個一致的數(shù)據(jù)存儲(如數(shù)據(jù)倉庫)中,由于數(shù)據(jù)源的多樣性,這就需要解決可能出現(xiàn)的各種集成問題。
- 數(shù)據(jù)模式集成
- 通過整合不同數(shù)據(jù)源中的元數(shù)據(jù)來實施數(shù)據(jù)模式的集成。特別需要解決各數(shù)據(jù)源中屬性等命名不一致的問題。
- 檢測并解決數(shù)據(jù)值的沖突
- 對現(xiàn)實世界中的同一實體,來自不同數(shù)據(jù)源的屬性值可能是不同的。可能的原因有不同的數(shù)據(jù)表示、不同的度量等。例如學(xué)生成績,有的用100制,有的用5等制,這都需要糾正并統(tǒng)一。
- 處理數(shù)據(jù)集成中的冗余數(shù)據(jù)
- 集成多個數(shù)據(jù)源時,經(jīng)常會出現(xiàn)冗余數(shù)據(jù),常見的有屬性冗余,如果一個屬性可以由其它屬性導(dǎo)出,則它是冗余屬性,例如“年薪”可以由月薪計算出來。
- 簡述有哪些數(shù)據(jù)變換方法。
-
數(shù)據(jù)變換的作用就是將數(shù)據(jù)轉(zhuǎn)換為易于進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)存儲形式。
-
最常見的數(shù)據(jù)變換方法是**規(guī)格化,**即將屬性數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間。
- 簡述數(shù)據(jù)概化策略與算法。
- 數(shù)據(jù)概化也稱為數(shù)據(jù)泛化,就是將數(shù)據(jù)源中的跟任務(wù)相關(guān)的數(shù)據(jù)集從較低的概念層抽象到較高的概念層的過程。
- 數(shù)據(jù)概化的一個基本方法是面向?qū)傩缘臍w納,根據(jù)屬性的概念分層,通過閾值控制,將屬性的低層屬性值用相應(yīng)高層概念替換,合并后得到原數(shù)據(jù)集的記錄歸約結(jié)果。類似于數(shù)據(jù)立方體在記錄個數(shù)聚集函數(shù)上的上卷操作。
- 簡述有哪些數(shù)據(jù)離散化技術(shù)。
- 分箱、直方圖分析、聚類分析
- 分箱
- 分箱是一種基于箱的指定個數(shù)自頂向下的分裂技術(shù),也可以用于記錄歸約和概念分層產(chǎn)生的離散化方法。
例如,通過使用等寬或等頻(等深)分箱,然后用箱均值或中位數(shù)替換箱中的每個值,可以將屬性值離散化,就像分別用箱的均值或箱的中位數(shù)平滑一樣。它是一種非監(jiān)督的離散化技術(shù),對用戶指定的箱個數(shù)很敏感。
- 直方圖分析
- 像分箱一樣,直方圖分析也是一種非監(jiān)督離散化技術(shù)。直方圖將一個屬性的值劃分成不相交的區(qū)間,稱作桶。
例如,在等寬直方圖中,將值分成相等的劃分或區(qū)間,在等深直方圖中,值被劃分成其中每一部分包含相同個數(shù)的樣本。每個桶有一個標(biāo)記,用它替代落在該桶中的屬性值,從而達(dá)到屬性值離散化的目的。
- 聚類分析
- 聚類分析是一種流行的數(shù)據(jù)離散化方法。通過聚類算法將屬性的值劃分成簇或組,每個簇或組有一個標(biāo)記,用它替代該簇或組中的屬性值。
- 簡述離散屬性概念分層的自動生成算法。
- **對于離散屬性,如果概念分層的任何層次上的結(jié)點(diǎn)(或?qū)傩灾?#xff09;個數(shù)少于比它低的每一層上的結(jié)點(diǎn)數(shù),**可以利用以下算法自動生成隱含在該屬性上的概念分層。
**輸入:**離散屬性集S={A1,A2,…,Am}和對應(yīng)的數(shù)據(jù)集R。
**輸出:**概念分層B1,B2,…,Bm。
**方法:**方法描述如下。
- 簡述大數(shù)據(jù)的特點(diǎn)。
- 大數(shù)據(jù)的5V特征
- 數(shù)量大(Volume)、類型多(Variety)、速度快(Velocity)、真實性(Veracity) 、大價值(Value)
5 關(guān)聯(lián)分析
思考題
- 簡述什么是購物籃問題。
- 設(shè)I是全部商品集合,D是所有顧客的購物清單,每個元組即事務(wù)是一次購買商品的集合。
- 購物籃問題是關(guān)聯(lián)分析的一個典型例子,每種商品有一個布爾變量,顧客購買某商品,對應(yīng)的布爾變量為true,否則為false,可以將一個事務(wù)看成是一個購物籃,購物籃可用一個為這些變量指定值的布爾向量表示。
- 試述關(guān)聯(lián)規(guī)則及其度量。
- 關(guān)聯(lián)規(guī)則表示項之間的關(guān)系,它是形如X→Y的蘊(yùn)涵表達(dá)式,其中X和Y是不相交的項集,即X∩Y=Ф,X稱為規(guī)則的前件,Y稱為規(guī)則的后件。
- 支持度
- 置信度
- 試述頻繁項集及頻繁k項集。
- 給定全局項集I和事務(wù)數(shù)據(jù)庫D,對于I的非空子集I1,若其支持度大于或等于min_sup,則稱I1為頻繁項集(Frequent Itemsets)。
- 對于I的非空子集I1,若某項集I1中包含有I中的k個項,稱I1為k-項集。
- 試述Apriori性質(zhì)。
- 若A是一個頻繁項集,則A的每一個子集都是一個頻繁項集。
- 試述改進(jìn)的Apriori算法。
- 采用自連接和剪枝操作得到改進(jìn)的Apriori算法如下:
- 輸入:事務(wù)數(shù)據(jù)庫D,最小支持度閾值min_sup。
- 輸出:所有的頻繁項集集合L。
- 方法:其過程描述如下:
- 試述產(chǎn)生關(guān)聯(lián)規(guī)則的算法。
-
**輸入:**Apriori算法的各項集的支持度計數(shù),頻繁項集集合L,最小置信度閾值min_conf
-
**輸出:**所有強(qiáng)關(guān)聯(lián)規(guī)則的后件項集R。
-
**方法:**其過程描述如下:
實踐題
- 有一個事務(wù)集合如表5.12所示,設(shè)最小支持度計數(shù)為3,采用Apriori算法求出所有的3-頻繁項集集合L3。
7 分類方法
思考題
- 機(jī)器學(xué)習(xí)通常分為有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí),有監(jiān)督學(xué)習(xí)通常又叫做分類,無監(jiān)督學(xué)習(xí)又叫做聚類。
- 分類過程分為兩個階段:學(xué)習(xí)階段和分類階段。學(xué)習(xí)階段又分為訓(xùn)練和測試兩部分。
- 分類的定義?分類算法可以根據(jù)哪些標(biāo)準(zhǔn)進(jìn)行比較和評估?
- 評估分類模型準(zhǔn)確率有哪些方法?
- 試述k-最鄰近分類算法的思路、定義、過程及算法描述,其適用范圍,不足及需要解決的主要問題。
- 信息增益如何計算?試述ID3算法。ID3算法的優(yōu)點(diǎn)和缺點(diǎn)?如何由決策樹提取分類規(guī)則?
- C4.5對ID3是如何改進(jìn)的?它是如何實現(xiàn)的?試述C4.5算法。
- 試述貝葉斯定理。給定相關(guān)概率如何計算后驗概率。
- 試述貝葉斯網(wǎng)絡(luò)的主要成分及其聯(lián)合概率計算方法。
- 試述樸素貝葉斯分類的假定及其原理,分類算法,其對應(yīng)的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),以及如何針對實際數(shù)據(jù)集進(jìn)行應(yīng)用?
- 試述人工神經(jīng)元及其工作過程,激活函數(shù)有什么作用?S型函數(shù)的定義及性質(zhì)。
- 試述人工神經(jīng)網(wǎng)絡(luò)的要素?試述前饋神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程。試述前饋神經(jīng)網(wǎng)絡(luò)用于分類的流程及對應(yīng)的算法。
- 支持向量機(jī)的基本原理及其優(yōu)缺點(diǎn)。如何得到線性分類器的分類間隔,支持向量的含義。松馳變量和懲罰因子的作用是什么?
實踐題
- 全?實踐.…
8 回歸和時序分析
思考題
- 什么是回歸分析?
- 回歸分析(Regression Analysis)是確定兩個或多個變量之間相互依賴的定量關(guān)系的一種統(tǒng)計分析方法,分為線性回歸、非線性回歸和邏輯回歸等。回歸分析和前一章介紹的分類方法都可以用于預(yù)測,與分類方法不同的是,通常分類輸出是離散類別值,而回歸的輸出是連續(xù)值。
- 什么是邏輯回歸?
- 邏輯回歸用于分析二分類或有次序的依變量和自變量之間的關(guān)系。
- 當(dāng)依變量是二分類(如1或0)時,稱之為二分邏輯回歸,自變量X1、X2、…、Xk可以是分類變量或連續(xù)變量等。
- 邏輯回歸在流行病學(xué)中應(yīng)用較多,常用于探索某種疾病的危險因素,根據(jù)危險因素預(yù)測某種疾病發(fā)生的概率。所以邏輯回歸是以概率分析為基礎(chǔ)的。
- 試述回歸與分類的關(guān)系。
- 回歸分析與分類方法不同的是,通常分類輸出是離散類別值,而回歸的輸出是連續(xù)值。
- 試述回歸分析與時序分析的關(guān)系。
- 時序分析和回歸分析兩者存在著內(nèi)在的統(tǒng)一性。
- 事實上,正是用時間變量t代替了許許多多影響事物長期趨勢的基本因素,可以把各種影響因素統(tǒng)一在一個回歸模型中。
實踐
- 一樣全?實踐…
10 聚類方法
思考題
- 什么是聚類。
- **聚類(clustering)**是將數(shù)據(jù)對象的集合分成相似的對象類的過程。使得同一個簇(或類,cluster)中的對象之間具有較高的相似性,而不同簇中的對象具有較高的相異性。
- 試述聚類過程。
- 數(shù)據(jù)準(zhǔn)備:為聚類分析準(zhǔn)備數(shù)據(jù),包括數(shù)據(jù)的預(yù)處理;
- 屬性選擇:選擇最有效的屬性用于聚類分析;
- 屬性提取:對所選屬性進(jìn)行轉(zhuǎn)換形成更有代表性的屬性;
- 聚類:采用某種聚類算法對數(shù)據(jù)進(jìn)行聚類;
- 結(jié)果評估:對聚類生成的結(jié)果進(jìn)行評價。
- 試述K-均值算法的過程、算法描述及其特點(diǎn)。
- 過程
-
首先輸入k的值,即希望將數(shù)據(jù)集D={o1,o2,…,on}經(jīng)過聚類得到k個分類或分組。
-
從數(shù)據(jù)集D中隨機(jī)選擇k個數(shù)據(jù)點(diǎn)作為簇質(zhì)心,每個簇質(zhì)心代表一個簇。這樣得到的簇質(zhì)心集合為Centroid={Cp1,Cp2,…,Cpk}。
-
對D中每一個數(shù)據(jù)點(diǎn)oi,計算oi與Cpj(j=1,2,…,k)的距離,得到一組距離值,從中找出最小距離值對應(yīng)的簇質(zhì)心Cps,則將數(shù)據(jù)點(diǎn)oi劃分到以Cps為質(zhì)心的簇中。
-
根據(jù)每個簇所包含的對象集合,重新計算得到一個新的簇質(zhì)心。若|Cx|是第x個簇Cx中的對象個數(shù),mx是這些對象的質(zhì)心,即:
這里的簇質(zhì)心mx是簇Cx的均值,這就是k-均值算法名稱的由來。
- 如果這樣劃分后滿足目標(biāo)函數(shù)的要求,可以認(rèn)為聚類已經(jīng)達(dá)到期望的結(jié)果,算法終止。否則需要迭代③~⑤步驟。通常目標(biāo)函數(shù)設(shè)定為所有簇中各個對象與均值間的誤差平方和(Sum of the Squared Error,簡稱SSE)小于某個閾值ε
- 算法描述
- 輸入:數(shù)據(jù)對象集合D,簇數(shù)目k,閾值ε
- 輸出:k個簇的集合
- 方法:其過程描述如下:
- 算法特點(diǎn)
- 優(yōu)點(diǎn):算法框架清晰、簡單、容易理解。
- 算法確定的k個劃分使誤差平方和最小。當(dāng)聚類是密集的,且類與類之間區(qū)別明顯時,效果較好。
- 處理大數(shù)據(jù)集,這個算法是相對可伸縮的和高效的。復(fù)雜度為O(tkn),其中n 是對象的數(shù)目,k 是簇的數(shù)目,t 是迭代的次數(shù)。 通常k、t << n。
- 缺點(diǎn)
- 算法中k要事先給定,這個k值的選定是非常難以估計的。
- 算法對異常數(shù)據(jù),如噪聲和離群點(diǎn)很敏感。
- 算法首先需要一個初始劃分,然后進(jìn)行優(yōu)化。這個初始聚類中心對結(jié)果有較大影響。
- 算法需要不斷對樣本進(jìn)行分類調(diào)整,時間開銷較大。
- 試述二分k-均值算法。
-
二分k-均值算法是基本k-均值算法的直接擴(kuò)充,它基于一種簡單的想法:為了得到k個簇,將所有點(diǎn)的集合分為兩個簇,從這些簇中選取一個繼續(xù)分裂,如此下去,直到產(chǎn)生k個簇。
-
二分k-均值算法如下:
-
輸入:數(shù)據(jù)對象集合D,簇數(shù)目k,二分次數(shù)b
-
輸出:k個簇的集合
-
方法:其過程描述如下:
- 試述k-中心點(diǎn)算法的過程、算法描述,并與k-均值算法進(jìn)行對比。
- 過程
- 任意選擇k個對象作為k個中心點(diǎn)。
- 計算每個非中心點(diǎn)對象到每個中心點(diǎn)的距離。
- 把每個非中心點(diǎn)對象分配到距離它最近的中心點(diǎn)所代表的簇中。
- 隨機(jī)選擇一個非中心點(diǎn)對象oi,計算用oi代替某個簇Cx的中心點(diǎn)ox所能帶來的好處(用△E表示代替后和代替前誤差函數(shù)值之差,意思是使誤差E增加多少)。
- 若△E<0,表示代替后誤差會減少,則用oi代替ox,即將oi作為簇Cx的中心點(diǎn);否則,不代替。
- 重復(fù)②~④,直到k個中心點(diǎn)不再發(fā)生改變。
- 描述
- 輸入:數(shù)據(jù)對象集合D,簇數(shù)目k
- 輸出:k個簇的集合
- 方法:其過程描述如下:
- 相較于K-均值算法
- 消除了k-均值算法對于孤立點(diǎn)的敏感性
- 比k-均值算法的代價要高
- 算法必須指定個數(shù)k,k的取值對聚類質(zhì)量有重大影響
- 對小的數(shù)據(jù)集非常有效,對大數(shù)據(jù)集效率不高,特別是n和k都很大的時候。
- 聚類與分類的區(qū)別?*
- 分類和聚類是兩個容易混淆的概念,事實上它們具有顯著區(qū)別。
- 在分類中,為了建立分類模型而分析的數(shù)據(jù)對象的類別是已知的,然而,在聚類時處理的所有數(shù)據(jù)對象的類別都是未知的。
- 因此,分類是有指導(dǎo)的(有監(jiān)督學(xué)習(xí)),是通過例子(訓(xùn)練樣本集)學(xué)習(xí)的過程,而聚類是無指導(dǎo)的(無監(jiān)督學(xué)習(xí)),是通過觀察學(xué)習(xí)的過程 。
改變。
- 描述
- 輸入:數(shù)據(jù)對象集合D,簇數(shù)目k
- 輸出:k個簇的集合
- 方法:其過程描述如下:
- 相較于K-均值算法
- 消除了k-均值算法對于孤立點(diǎn)的敏感性
- 比k-均值算法的代價要高
- 算法必須指定個數(shù)k,k的取值對聚類質(zhì)量有重大影響
- 對小的數(shù)據(jù)集非常有效,對大數(shù)據(jù)集效率不高,特別是n和k都很大的時候。
- 聚類與分類的區(qū)別?*
- 分類和聚類是兩個容易混淆的概念,事實上它們具有顯著區(qū)別。
- 在分類中,為了建立分類模型而分析的數(shù)據(jù)對象的類別是已知的,然而,在聚類時處理的所有數(shù)據(jù)對象的類別都是未知的。
- 因此,分類是有指導(dǎo)的(有監(jiān)督學(xué)習(xí)),是通過例子(訓(xùn)練樣本集)學(xué)習(xí)的過程,而聚類是無指導(dǎo)的(無監(jiān)督學(xué)習(xí)),是通過觀察學(xué)習(xí)的過程 。
總結(jié)
以上是生活随笔為你收集整理的数据仓库与数据挖掘课后思考题整理的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 51单片机学习——1天学完普中基本实验例
- 下一篇: 【历史上的今天】11 月 14 日:微软