【数据挖掘笔记一】引论
1.引論
1.1為什么進行數據挖掘
數據挖掘,從數據中發現知識(KDD),從各種各樣的應用數據中發現有趣數據模式。數據挖掘把大型數據集轉換成知識。數據挖掘是信息技術自然進化的結果。數據庫和數據管理功能不斷發展,從數據收集和數據庫創建、到數據管理(包括數據存儲和檢索、數據庫事務處理)、再到高級數據分析(包括數據倉庫和數據挖掘)。如下圖。
現在還要加上大數據和人工智能,沒有大量數據集的處理,不能成就今天的人工智能。大數據是基于數據倉庫而起的。數據倉庫是一種存儲結構,一種多個異構數據源在單個站點以統一的模型組織的存儲,以支持管理決策。大數據不是單個站點了,是一個集群了,這里面和并行、云、分布式計算的發展大有關系。數據倉庫技術包括數據清理、數據集成和聯機事務處理(OLAP)。OLAP是一種分析技術,具有匯總、合并和聚集以及從不同的角度觀察信息的能力。OLAP雖然支持多維分析和決策,但對于深層次的分析,仍需其他分析工具,如提供數據分類、聚類、離群點/異常檢測和刻畫數據隨時間變化等特征的數據挖掘工具。
豐富的數據加上對數據分析的強烈需求,推動著挖掘技術的發展。如若不然,就陷入“數據豐富,但信息貧乏”的境況,一般情況,大型數據庫中的數據都成了檔案-數據墳墓。急需為決策者提供從海量數據中提取有價值知識的工具。專家系統和知識庫系統是一種嘗試,不過需要人工將知識輸入知識庫。數據和信息之間存在鴻溝,要發展挖掘工具,將數據墳墓變成金塊。
1.2什么是數據挖掘
數據挖掘是從大量數據中挖掘有趣模式和知識的過程。一般由以下步驟的迭代序列構成:
1)數據清理:消除噪聲或刪除不一致數據;
2)數據集成:多種數據源可以組合在一起;
3)數據選擇:從數據庫中提取與分析任務相關的數據;
4)數據變換:通過匯總或聚集操作,把數據變換和統一成適合挖掘的形式,如數據歸約;
5)數據挖掘:基本步驟,使用智能方法提取數據模式;
6)模式評估:根據某種興趣度度量,識別代表知識的真正有趣的模式;
7)知識表示:使用可視化和知識表示技術,向用戶提供挖掘的知識。
1.3可以挖掘什么類型的數據
數據挖掘是一種通用技術,以應用為目標導向,可用于挖掘任何類型的數據。對于挖掘的應用,數據的基本形式有:數據庫數據、數據倉庫數據和事務數據,也可用于如數據流、序列數據、圖、網絡數據、空間數據、多媒體數據、萬維網等其他類型數據。
1)數據庫系統
數據庫系統,也稱數據庫管理系統(DBMS),由一組內部相關的數據(稱做數據庫)和一組管理和存取數據的軟件程序組成。軟件提供如下機制:定義數據庫結構和數據存儲,說明和管理并發、共享或分布式數據訪問,面對系統癱瘓或未授權的訪問,確保存儲的信息的一致性和安全性。
關系數據庫是表的匯集,每個表都被賦予一個唯一的名字。每個表都包含一組屬性(列或字段),并且通常存放大量元組(記錄或行)。關系表中的每個元組代表一個對象,被唯一的關鍵字標識,并被一組屬性值描述。通常為關系數據庫構建語義數據模型,如實體-聯系(ER)數據模型。ER數據模型將數據庫表示成一組實體和它們之間的關系。
關系數據庫可以通過數據庫查詢訪問。數據庫查詢使用如SQL這樣的關系查詢語言,或借助于圖形用戶界面書寫。一個給定的查詢被轉換成一系列關系操作,如連接、選擇和投影,并被優化,以便有效地處理。查詢可以提取數據的一個指定的子集,關系查詢語言也包含聚集函數,如sum、avg、count、max和min。當數據挖掘用于關系數據庫時,可進一步搜索趨勢或數據模式;如可以分析顧客數據,根據顧客收入、年齡和以前的信用信息預測新顧客的信用風險。數據挖掘系統也可以檢測偏差。
關系數據庫是數據挖掘最常見、最豐富的信息源,因此是數據挖掘研究的主要數據形式。
2)數據倉庫
數據倉庫是一個從多個數據源收集的信息存儲庫,存放在一致的模式下,并且通常駐留在單個站點上。數據庫倉庫通過數據清理、數據變換、數據集成、數據裝入和定期數據刷新來構造。為支持決策,數據倉庫中的數據圍繞主題組織,數據存儲從歷史的角度提供信息并匯總。三個詞:主題、匯總、歷史。
通常,數據倉庫用稱做數據立方體(data cube)的多維數據結構建模。其中,每個維對應于模式中的一個或一組屬性,而每個單元存放某種聚焦度量值,如count或sum。數據立方體提供數據的多維視圖,并允許預計算和快速訪問匯總數據。通過提供多維數據視圖和匯總數據的預計算,數據倉庫非常適合聯機分析處理(OLAP)。OLAP操作使用所研究的數據的領域的背景知識,允許在不同的抽象層提供數據。這些操作適合不同的用戶角度。OLAP操作的例子包括下鉆(drill-down)和上卷(roll-up),允許用戶在不同的匯總級別觀察數據。
盡管數據倉庫工具對于支持數據分析是有幫助的,但是進行深入分析仍然需要更多的數據挖掘工具。多維數據挖掘(又稱探索式多維數據挖掘)以OLAP風格在多維空間進行數據挖掘。也就是說,在數據挖掘中,允許在各種粒度進行多維組合探查,因此更有可能發現代表知識的有趣模式。
3)事務數據
事務數據庫的每個記錄代表一個事務,如顧客的一次購物、一個航班訂票或一個用戶的網頁點擊。通常,一個事務包含一個唯一的事務標識號(trans_ID),以及一個組成事務的項(如交易中購買的商品)的列表。事務數據庫可能有一些與之相關聯的附加表,包含關于事務的其他信息,如商品描述、關于銷售人員或部門等的信息。
事務數據上的數據挖掘可以通過挖掘頻繁項集進行“購物籃數據分析”。頻繁項集是頻繁地一起銷售的商品的集合。
4)其他類型數據
除關系數據庫數據、數據倉庫數據和事務數據外,還有其他類型的數據,它們具有各種各樣的形式和結構,具有很不相同的語義。如時間相關或序列數據(如歷史記錄、股票交易數據、時間序列和生物學序列數據)、數據流(如視頻監控和傳感器數據,它們連續播送)、空間數據(如地圖)、工程設計數據(如建筑數據、系統部件或集成電路)、超文本和多媒體數據(包括文本、圖像、視頻和音頻數據)、圖和網狀數據(如社會和信息網絡)和萬維網(由Internet提供的巨型、廣泛分布的信息存儲庫)。這些應用帶來新的挑戰,如如何處理具有空間結構的數據(如序列、樹、圖和網絡)和特殊語義(如次序、圖像、音頻和視頻的內容、連接性),以及如何挖掘具有豐富結構和語義的模式。
在許多應用中,存在多種數據類型。如web挖掘中,網頁上有文本數據和多媒體數據(如照片和視頻)、圖形數據、地圖數據;如在生物信息學中,對某些生物學對象,染色體序列、生物學網絡和染色體的3D空間結構可能同時存在。由于多個數據源的相互提升和加強,挖掘復雜對象的多個數據源常常導致碩果累累的發現。另一方面,由于數據清理和數據集成的困難性,以及這種數據的多個數據源之間的復雜相互作用,挖掘復雜對象也是一大挑戰。
1.4可以挖掘什么類型的模式
數據挖掘的任務分類:描述性(descriptive)和預測性(predictive),描述性挖掘任務刻畫目標數據中數據的一般性質;預測性挖掘任務在當前數據上進行歸納,以便做出預測。
1)特征化與區分
數據可以與類或概念相關聯,對于類或概念的描述可通過如下方法得到:a、數據特征化,一般地匯總所研究類(目標類)的數據;b、數據區分,將目標類與一個或多個可比較類(對比類)進行比較;c、數據特征化和區分。
數據特征化(datacharacterization)是目標類數據的一般特性或特征的匯總。通常,通過查詢來收集對應于用戶指定類的數據。將數據匯總和特征化有一些有效的方法,如基于統計量和圖的簡單匯總、基于數據立方體的OLAP上卷操作。面向屬性的歸納技術可以用來進行數據的泛化和特征化。數據特征化的輸出有多種形式,如餅圖、條圖、曲線、多維數據立方體和包括交叉表在內的多維表。結果描述也可以用廣義關系或規則(稱做特征規則)形式提供。
數據區分(datadiscrimination)是將目標類數據對象的一般特性與一個或多個對比類對象的一般特性進行比較。目標類和對比類可以由用戶指定,而對應的數據對象可以通過數據庫查詢檢索。數據區分的輸出類似特征描述,不過區分描述包括比較度量,以區分目標類和對比類。用規則表示的區分描述稱為區分規則(discriminant rule)。
2)挖掘頻繁模式、關聯和相關性
頻繁模式(frequentpattern)是在數據中頻繁出現的模式。存在多種類型的頻繁模式,包括頻繁項集、頻繁子序列(或稱序列模式)和頻繁子結構。頻繁項集一般是指頻繁地在事務數據集中一起出現的商品的集合,如小賣部中顧客頻繁地一起購買牛奶和面包。頻繁出現的子序列,如先買便攜機再買數碼相機然后再買內存卡,這樣的模式就是一個頻繁序列模式。頻繁子結構可能涉及不同的結構形式,如圖、樹或格,可以與項集或子序列結合在一起。如果一個子結構頻繁地出現,則稱為頻繁結構模式。挖掘頻繁模式導致發現數據中有趣的關聯和相關性。
關聯分析,對頻繁模式的相關性關系定義,用支持度和置信度,包括單維關聯和多維關聯。一個關聯規則被認為是無趣的而被丟棄,當且僅當不能同時滿足支持最小支持度閾值和最小置信度閾值。也可進一步分析,發現相關聯的屬性-值對之間的有趣的統計相關性(correlation)。頻繁項集挖掘是頻繁模式挖掘的基礎。
3)用于預測分析的分類和回歸
分類(classification)找出描述和區分數據類或概念的模型(或函數),以便能夠使用模型預測類標號未知的對象的類標號。導出模型是基于對訓練數據集(即類標號已知的數據對象)的分析。該模型用來預測類標號未知的對象的類標號。模型有分類規則、決策樹、數學公式或神經網絡、樸素貝葉斯分類、支持向量機和k最近鄰分類。決策樹時一種類似于流程圖的樹結構,其中每個結點代表在一個屬性值上的測試,每個分支代表測試的一個結果,而樹葉代表類或類分布。當用于分類時,神經網絡是一組類似于神經元的處理單元,單元之間加權連接。
分類預測類別(離散的、無序的)標號,而回歸建立連續值函數模型。回歸用來預測缺失的或難以獲得的數值數據值,而不是離散的類標號。預測可以值數值預測或類標號預測。回歸分析(regression analysis)是一種最常用的數值預測的統計學方法。回歸也包含基于可用數據的分布趨勢識別。
相關分析(relevanceanalysis)在分類和回歸之前進行,識別與分類或回歸過程顯著相關的屬性,將選擇這些屬性用于分類和回歸過程,其他屬性是不相關,不參與。
4)聚類分析
聚類(clustering)分析數據對象,而不考慮類標號。對不存在標記類的數據,可使用聚類產生數據組群的類標號。對象根據最大化類內相似性、最小化類間相似性的原則進行聚類或分組。對象的簇(cluster)使得相比之下在同一個簇中的對象具有很高的相似性,而與其他簇中的對象很不相似。所形成的每個簇都可以看做一個對象類,由它可以導出規則。聚類也便于分類法形式(taxonomy formation),即將觀測組織成類分層結構,把類似的事件組織在一起。
5)離群點分析
數據集中可能包含一些數據對象,它們與數據的一般行為或模型不一致。這些數據對象是離群點(outlier)。大部分數據挖掘方法都將離群點視為噪聲或異常而丟棄。不過,在一些應用中(例如欺詐檢測),罕見的事件可能比正常出現的事件更令人感興趣。離群點數據分析稱做離群點分析或異常挖掘。
可以假定一個數據分析或概率模型,使用統計檢驗來檢測離群點;或者使用距離度量,將遠離任何簇的對象視為離群點。不使用統計或距離度量,基于密度的方法也可以識別局部區域中的離群點。
6)所有模式都是有趣的嗎
有趣的模式即代表知識。不過所挖掘的模式并不一定都是有趣的。一個模式是有趣的(interesting),滿足:a、易于被人理解;b、在某種確信度上,對于新的或檢驗數據是有效的;c、是潛在有用的;d、是新穎的。如果一個模式證實了用戶尋求證實的某種假設,則它也是有趣的。
模式興趣度的客戶度量,度量基于所發現模式的結構和關于它們的統計量。對于形如X->Y的關聯規則,客觀度量有規則的支持度(support)和規則的置信度(confidence)。支持度表示事務數據庫中滿足規則的事務所占的百分比,支持度取概率P(XUY),XUY表示同時包含X和Y的事務,即項集X和Y的合并。置信度用于評估所發現的規則的確信程度,置信度取條件概率P(Y|X),即包含X的事務也包含Y的概率。形式化定義支持度和置信度:
一般地,每個興趣度度量都與一個閾值相關聯,該閾值可以由用戶控制。
其他興趣度度量包括分類(IF-THEN)規則的準確率與覆蓋率。一般而言,準確率是被一個規則正確分類的數據所占的百分比。覆蓋率類似于支持度,指可以作用的數據所占的百分比。
客觀度量有助于識別有趣的模式,不過還是要結合反映特定用戶需要和興趣的主觀度量。主觀興趣度量基于用戶對數據的信念。這種度量發現模式是有趣的,如果它們是出乎意料的(與用戶的信念相矛盾),或者提供用戶可以采取行動的至關重要的信息。在后一種情況下,這樣的模型稱為可行動的(actionable)。
根據用戶提供的約束和興趣度度量對搜索聚焦,對于一些挖掘任務(如關聯)而言,可期望所挖掘出的模式相對有效。模式興趣度度量是必要的,可以指導和約束發現過程,通過剪去模式空間中不滿足預先設定的興趣度約束的子集,提高搜索性能。
整個挖掘過程基本是:數據特征化和區分,實際就是特征抽取;接著就是相關性分析,就是特征選擇;然后就是模型訓練;最后就是模型評估,有趣模式度量。
1.5使用什么技術
作為一個應用驅動的領域,數據挖局吸納了諸如統計學、機器學習、模式識別、數據庫和數據倉庫、信息檢索、可視化、算法、高性能計算和許多應用領域的大量技術,如下圖。
1)統計學
統計學研究數據的收集、分析、解釋和表示。數據挖掘與統計學具有天然聯系。
統計模型是一組數學函數,用隨機變量及其概率分布刻畫目標類對象的行為。如可使用統計模型對噪聲和缺失的數據值建模,在大數據集挖掘模式時,數據挖掘過程可以使用該模型來幫助識別數據中的噪聲和缺失值。
推理統計學(或預測統計學)用某種方式對數據建模,解釋觀測中的隨機性和確定性,并用來提取關于所考察的過程或總體的結論。統計學方法也用來驗證數據挖掘結果。如建立分類或預測模型之后,使用統計假設檢驗來驗證模型。統計假設檢驗(或稱做證實數據分析)使用實驗數據進行統計判決,如果結果不大可能隨機出現,則稱它為統計顯著的。如果分類或預測模型有效,則該模型的描述統計量將增強模型的可靠性。
統計學方法應用于大型數據集時,具有很高的計算復雜度,尤其是對分布在多個邏輯或物理站點的大型數據集時,需設計和調優算法,最大程度降低計算開銷。對于聯機應用而言,如web搜索引擎中的聯機查詢建議,數據挖掘要能夠連續處理快速、實時的數據流。
2)機器學習
機器學習是考察計算機基于數據的學習能力,主要研究計算機程序基于數據自動地學習識別復雜的模式,并做出智能的決斷。如計算機程序從一組實例學習,能夠自動識別郵件上的手寫體郵政編碼。
a、?監督學習(supervised learning):分類任務,學習中的監督來自訓練數據集中標記的實例。
b、?無監督學習(unsupervised learning):聚類任務,學習過程是無監督的,輸入實例沒有標記。
c、?半監督學習(semi-supervised learning):學習模型時,使用標記的和未標記的實例,標記的實例用來學習類模型,而未標記的實例用來進一步改進類邊界。
d、?主動學習(active learning):讓用戶在學習過程中扮演主動角色,其實就是專家給標記。
3)數據庫系統與數據倉庫
數據庫系統研究關注為單位和最終用戶創建、維護和使用數據庫,建立了數據建模、查詢語言、查詢處理和優化方法、數據存儲以及索引和存取方法。數據庫系統在處理大的、相對結構化的數據集上具有高度可伸縮性。數據挖掘利用可伸縮的數據庫技術,可獲得在大型數據集上的高效率和可伸縮性。
新的數據庫系統使用數據倉庫和數據挖掘機制,在數據庫的數據上建立數據分析能力。數據倉庫集成多種數據源和各個時間段的數據,在多維空間上合并數據形成部分物化的數據立方體。數據立方體有利于多維數據庫的OLAP。
4)信息檢索
信息檢索(IR)是搜索文檔或文檔中信息的科學。傳統的信息檢索和數據庫系統之間的區別是:信息檢索假定所搜索的數據是無結構的;信息檢索查詢主要用關鍵詞。
信息檢索的方法采用概率模型。如文本文檔可以看做詞的包,即出現在文檔中的詞的多重集;文檔的語言模型是生成文檔中詞的包的概率密度函數;兩個文檔之間的相似度可用對應的語言模型之間的相似性度量。一個文本文檔集的主體可以用詞匯表上的概率分布模型,稱做主題模型。一個文本文檔可以涉及多個主題,可以看做多主題混合模型。
1.6面向什么類型的應用
數據挖掘作為應用驅動的學科,在眾多應用中獲得巨大成功,典型就是商務智能和搜索引擎。
1)商務智能
商務智能BI技術提供商務運作的歷史、現狀和預測視圖,包括報告、聯機分析處理、商務業績管理、競爭情報、標桿管理和預測分析。數據挖掘是商務智能的核心。商務智能的聯機分析處理工具依賴于數據倉庫和多維數據挖掘。分類和預測技術是商務智能預測分析的核心,在分析市場、供應和銷售方面有很多應用。在客戶關系管理方面,聚類可根據顧客的相似性把顧客分組,使用特征挖掘技術,可以更好地理解每組顧客的特征,并開發定制的顧客獎勵計劃。
2)搜索引擎
Web搜索引擎是一種專門的計算機服務器,在web上搜索信息。通常,用戶查詢的搜索結果用一張表返回給用戶(也稱做采樣hit)。采樣可以包含網頁、圖像和其他類型的文件。有些搜索引擎也搜索和返回公共數據庫中的數據或開放的目錄。搜索引擎不同于網絡目錄,因為網絡目錄是人工編輯管理的,而搜索引擎則按算法運行,或者算法和人工輸入的混合。
Web搜索引擎本質上式大型數據挖掘應用。搜索引擎全方位地使用各種數據挖掘技術,包括爬行(如決定應該爬過那些頁面和爬行頻率)、索引(如選擇被索引的頁面和決定構建索引的范圍)和搜索(如確定如何排列各個頁面、加載何種廣告、如果把搜索結果個性化或使之環境敏感)。
搜索引擎對數據挖掘提出了挑戰。首先能處理大量并且不斷增加的數據,需計算機云來協調挖掘海量數據;其次需要處理在線數據,滿足即時查詢,對快速增長的數據流要維護和增量更新模型;最后能處理次數不多的查詢,這種情況一般不會保留歷史推斷查詢的環境。
1.7數據挖掘的主要問題
數據挖掘是一個動態的、強勢快速發展的領域。數據挖掘研究的主要問題:挖掘方法、用戶交互、有效性與可伸縮性、數據類型的多樣性、數據挖掘與社會。
1)挖掘方法
a、挖掘各種新的知識類型:數據挖掘廣泛涵蓋數據分析和知識發現的任務,從數據特征化與區分到關聯與相關性分析、分類、回歸、聚類、離群點分析、序列分析以及趨勢和演變分析。
b、挖掘多維空間中的知識:在不同抽象層的多維(屬性)組合中搜索有趣的模式,即探索式多維數據挖掘;把數據看做多維數據立方體,可顯著地提高數據挖掘的能力和靈活性。
c、數據挖掘-跨學科的努力:通過集成來自多學科的新方法可以顯著增強數據挖掘的能力。如挖掘自然語言文本數據,要把數據挖掘方法與信息檢索和自然語言處理的方法融合;比如大型程序中的軟件故障挖掘,要結合軟件工程知識。
d、提升網絡環境下的發現能力:所謂網絡環境,就是開放的,數據是互連互補的;多個數據對象之間的語義鏈接可以用來促進數據挖掘。一個數據集中導出的知識可以用來提升相關或語義連接的對象集中的知識發現。
e、處理不確定性、噪聲或不完全的數據:數據常常包含噪聲、錯誤、異常、不確定性,或者是不完全的;錯誤和噪聲可能干擾數據挖掘過程,導致錯誤的模式出現。數據清理、數據預處理、離群點檢測與刪除以及不確定推理都是需要與數據挖掘過程集成的技術。
f、模式評估和模式或約束指導的挖掘:數據挖掘過程所產生的所有模式并非都是有趣的,認定模型是否有趣因應用而異,因此需要一種技術來評估基于主觀度量所發現的模式的興趣度。這種評估給定用戶類,基于用戶的確信或期望,評估模式的價值;通過使用興趣度度量或用戶指定的約束指導發現過程,可以產生更有趣的模式,壓縮搜索空間。
2)用戶界面
用戶界面研究包括:如何與數據挖掘系統交互,如何在挖掘中融入用戶的背景知識,以及如何可視化和理解數據挖掘的結果。
a、?交互挖掘:構建靈活的用戶界面和探索式挖掘環境,以便用戶與系統交互。
b、?結合背景知識:把背景知識、約束、規則等信息結合到發現過程中,用于模式評估。
c、?特定的數據挖掘和數據挖掘查詢語言。
d、?數據挖掘結果的表示和可視化。
3)有效性和可伸縮性
a、數據挖掘算法的有效性和可伸縮性:為有效地從多個數據庫或動態數據流的海量數據中提取信息,數據挖掘算法必須是有效的和可伸縮的。數據挖掘算法的運行時間必須是可預計的、短的和可以被應用接收的。有效性、可伸縮性、性能、優化以及實時運行能力是驅動數據挖掘算法開發的關鍵標準。可伸縮性就是算法在數據規模增長時能夠保持性能的相對穩定。
b、并行、分布式和增量數據算法:巨大容量的數據、廣泛分布的數據以及算法的計算復雜性都需要開發并行和分布式數據密集型挖掘算法;該類算法首先把數據劃分成若干片段,每個片段并行處理,搜索模式;并行處理可以交互,來自每部分的模式最終合并在一起。
云計算和集群計算使用分布和協同的計算機處理超大規模計算任務,是并行數據挖掘研究的活躍主體。數據挖掘過程的高開銷和輸入的增量也推動了增量數據挖掘,增量挖掘與新的數據結合,不從頭開始挖掘,修正和加強先前業已發現的知識。并行挖掘和增量挖掘值得深入探究挖掘方法。
4)數據庫類型的多樣性
a、處理復雜的數據類型。
b、挖掘動態的、網絡的、全球的數據庫。
5)數據挖掘與社會
a、數據挖掘對社會的影響。
b、保護隱私的數據挖掘。
c、無形的數據挖掘:滲透到大眾的日常行為中。
1.8小結
1)數據挖掘是從海量數據中發現有趣模式的過程。作為知識發現的過程,通常包括數據清理、數據集成、數據選擇、數據變換、模式發現、模式評估和知識表示。
2)一個模式是有趣的,如果它在某種確信度上對于檢驗數據是有效的、新穎的、潛在有用的(如據之行動,或者驗證了用戶關注的某種預感),并且易于被人理解。有趣的模式代表知識。模式興趣度度量,無論是客觀的還是主觀的,都可以用來指導發現過程。
3)數據挖掘的多維視圖,主要的維是數據、知識、技術和應用。
4)只要對目標應用是有意義的,數據挖掘可以在任何類型的數據上進行,如數據庫數據、數據倉庫數據、事務數據和高級數類型等。高級數據類型包括時間相關的或序列數據、數據流、空間和時空數據、文本和多媒體數據、圖和網絡數據、web數據。
5)數據倉庫是一種用于長期存儲數據的倉庫,數據來自多個源,以主題和統一模式組織的,提供聯機分析處理能力,支持管理決策。
6)多維數據挖掘,把數據挖掘的核心技術與基于OLAP的多維分析結合在一起,在不同的抽象層的多維(屬性)組合中搜索有趣的模式,從而探索多維數據空間。
7)數據挖掘功能用來指定數據挖掘任務發現的模式或知識類型,包括特征化和區分,頻繁模式、關聯和相關性挖掘,分類和回歸,聚類分析和離群點檢測。
8)數據挖掘研究存在很多挑戰性問題,包括挖掘方法、用戶交互、有效性和可伸縮性以及處理多樣化的數據類型。
?
總結
以上是生活随笔為你收集整理的【数据挖掘笔记一】引论的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java之String、StringBu
- 下一篇: Java经典面试题(N人循环报M个数出列