数据挖掘:概念与技术笔记(一)引言
目錄
?
1.1 數據挖掘為什么重要?
1.2 什么是數據挖掘?
1.3 數據挖掘-在何種數據上進行
1.3.1 關系數據庫
1.3.2 數據倉庫
1.3.3 事務數據庫
1.3.4 高級數據庫系統和高級數據庫應用
1.4 數據挖掘功能——可以挖掘什么類型的模式?
1.4.1 概念/類描述:特征和區分
1.4.2 關聯分析
1.4.3 分類和預測
1.4.4 聚類分析
1.4.5 局外者分析
1.4.6 演變分析
1.5 所有模式都是有趣的嗎?
1.6 數據挖掘系統的分類
1.7 數據挖掘的主要問題
1.8 總結
1.1 數據挖掘為什么重要?
數據倉庫(1.3.2 小 節):是一種數據庫結構,是一種多個異種數據源在單個站點以統一的模式組織的存儲,以支持管理決策。數據倉庫 技術包括數據清理、數據集成和聯機分析處理(OLAP)。
聯機分析處理(OLAP): 是一種分析技術,具有匯總、合并 和聚集功能,以及從不同的角度觀察信息的能力。盡管 OLAP 工具支持多維分析和決策,對于深層 次的分析,如數據分類、聚類和數據隨時間變化的特征,仍然需要其它分析工具。
數據庫技術的進化如下圖:
?
數據挖掘工具進行數據分析,可以發現重要的數據模式,對商務決策、知識庫、科學和醫 學研究作出了巨大貢獻。數據和信息之間的鴻溝要求系統地開發數據挖掘工具,將數據墳墓轉換成 知識“金塊”。
?
1.2 什么是數據挖掘?
數據挖掘是從大量數據中提取或“挖掘”知識
?
許多人把數據挖掘視為另一個常用的術語“數據庫中知識發現”或 KDD 的同義詞。而另一些 人只是把數據挖掘視為數據庫中知識發現過程的一個基本步驟。知識發現過程如圖 1.4 所示
我們采用數據挖掘的廣義觀點:數據挖掘是從存放在數據庫、數據倉庫或其它信息庫中的大量數據 挖掘有趣知識的過程。
數據挖掘涉及多學科技術的集成,包括數據庫技術、統計、機器學習、高性能計算、模式識別、 神經網絡、數據可視化、信息提取、圖象與信號處理和空間數據分析。
著重強調大型數據庫中有效的和可規模化的數據挖掘技術。一個算法是可 規?;?#xff0c;如果給定內存和磁盤空間等可利用的系統資源,其運行時間應當隨數據庫大小線性增加。
1.3 數據挖掘-在何種數據上進行
1.3.1 關系數據庫
數據庫系統,也稱數據庫管理系統(DBMS),由一組內部相關的數據,稱作數據庫,和一組 管理和存取數據的軟件程序組成。
關系數據庫是表的集合,每個表都賦予一個唯一的名字。每個表包含一組屬性(列或字段), 并通常存放大量元組(記錄或行)。關系中的每個元組代表一個被唯一關鍵字標識的對象,并被一 組屬性值描述。語義數據模型,如實體-聯系(ER)數據模型,將數據庫作為一組實體和它們之間 的聯系進行建模。通常為關系數據庫構造 ER 模型。
例 1.1 AllElectronics 公司由下列關系表描述:customer, item, employee 和 branch。這些表的片 段在圖 1.6 中給出。
關系 customer 由一組屬性,包括顧客的唯一標識號(cust_ID),顧客的姓名、地址、年齡、職業、 年收入、信譽信息、分類等。
關系數據可以通過數據庫查詢訪問,。假定你的工作是分析 AllElectronics 的數據。通過使用關系查詢,你可以 提這樣的問題:“顯式一個上個季度銷售的商品的列表”。關系查詢語言也可以包含聚集函數,如 sum, avg(平均),count, max(最大)和 min(最小)。這些使得你可以問“給我顯式上個月的總銷 售,按分店分組”,或“多少銷售事務出現在 12 月份?”,或“哪一位銷售人員的銷售額最高?”
?
1.3.2 數據倉庫
假定 AllElectronics 是一個成功的跨國公司,分部遍及世界。每個分部有自己的一組數據庫。 AllElectronics 的總裁要你提供公司第三季度每種商品、每個分部的銷售分析。這是一個困難的任務, 特別是當相關數據散布在多個數據庫,物理地存放在許多站點時。 如果 AllElectronics 有一個數據倉庫,該任務將是容易的。數據倉庫是一個從多個數據源收集的 信息存儲,存放在一個一致的模式下,并通常駐留在單個站點。數據倉庫通過數據清理、數據變換、 數據集成、數據裝入和定期數據刷新構造。該過程在第 2、3 章詳細研究。圖 1.7 給出了 AllElectronics 的數據倉庫的基本結構
為便于制定決策,數據倉庫中的數據圍繞諸如顧客、商品、供應商和活動等主題組織。數據存 儲,從歷史的角度(如過去的 5-10 年)提供信息,并且是匯總的。例如,數據倉庫不是存放每個銷 售事務的細節,而是存放每個商店,或(匯總到較高層次)每個銷售地區每類商品的銷售事務匯總。 通常,數據倉庫用多維數據庫結構建模。其中,每個維對應于模式中一個或一組屬性,每個單 元存放聚集度量,如 count 或 sales_amount。數據倉庫的實際物理結構可以是關系數據存儲或多維數 據方。它提供數據的多維視圖,并允許快速訪問預計算的和匯總的數據。
例 1.2 AllElectronics 的匯總銷售數據數據方在圖 1.8(a)中。該數據方有三個維:address(城市 值),time(季度值 Q1, Q2, Q3, Q4)和 item(商品類型值:家庭娛樂、計算機、電話、安全)。存 放在方體的每個單元中的聚集值是 sales_amount(單位:$1000)。例如,安全系統第一季度在 Vancouver 的總銷售為$400,000,存放在單元中。其它方體可以用于存放每個 維上的聚集和,對應于使用不同的 SQL 分組得到的聚集值(例如,每個城市和季度,或每個季度和 商品,或每單個維的總銷售量)。
通過提供多維數據視圖和匯總數據的預計算,數據倉庫非常適合聯機分析處理(OLAP)。OLAP 操作使用數據的領域背景知識,允許在不同的抽象層提供數據。這些操作適合不同的用戶。OLAP 操作的例子包括下鉆和上卷,它們允許用戶在不同的匯總級別觀察數據,如圖 1.8(b)所示。例如, 可以對按季度匯總的銷售數據下鉆,觀察按月匯總的數據。類似地,可以對按城市匯總的銷售數據 上卷,觀察按國家匯總的數據
1.3.3 事務數據庫
一般地,事務數據庫由一個文件組成,其中每個記錄代表一個事務。通常,一個事務包含一個 唯一的事務標識號(trans_ID),和一個組成事務的項的列表(如,在商店購買的商品)。事務數據庫 可能有一些與之相關聯的附加表,包含關于銷售的其它信息,如事務的日期、顧客的 ID 號、銷售 者的 ID 號、銷售分店,等等。
例 1.3 事務可以存放在表中,每個事務一個記錄。AllElectronics 的事務數據庫的片段在圖 1.9 中給出。從關系數據庫的觀點,圖 1.9 的銷售表是一個嵌套的關系,因為屬性”list of item_ID”包含 item 的集合。由于大部分關系數據庫系統不支持嵌套關系結構,事務數據庫通常存放在一個類似于圖 1.9 中的表格式的展平的文件中,或展開到類似于圖 1.6 的 items_sold 表的標準關系中。
作為 AllElectronics 數據庫的分析者,你想問“顯示 Sandy Smith 購買的所有商品”或“有多少 事務包含商品號 I3?”?;卮疬@種查詢可能需要掃描整個事務數據庫
假定你想更深地挖掘數據,問“哪些商品適合一塊銷售?”這種“購物籃分析”使你能夠將商 品捆綁成組,作為一種擴大銷售的策略。例如,給定打印機與計算機經常一起銷售的知識,你可以 向購買選定計算機的顧客提供對一種很貴的打印機打折,希望銷售更多較貴的打印機。常規的數據 提取系統不能回答上面這種查詢。然而,通過識別頻繁一塊銷售的商品,事務數據的數據挖掘系統 可以做到。
1.3.4 高級數據庫系統和高級數據庫應用
新的數據庫應用包括處理空間數據(如地圖)、工程設計數據(如建筑設計、系統部件、集成 電路)、超文本和多媒體數據(包括文本、圖象和聲音數據)、時間相關的數據(如歷史數據或股 票交換數據)和萬維網(Internet 使得巨大的、廣泛分布的信息存儲可以利用)。這些應用需要有效 的數據結構和可規模化的方法,處理復雜的對象結構、變長記錄、半結構化或無結構的數據,文本 和多媒體數據,以及具有復雜結構和動態變化的數據庫模式。
為響應這些需求,開發了先進的數據庫系統和面向特殊應用的數據庫系統。這些包括面向對象 和對象-關系數據庫系統、空間數據庫系統、時間和時間序列數據庫系統、異種和遺產數據庫系統、 基于萬維網的全球信息系統。
面向對象數據庫 面向對象數據庫基于面向對象程序設計范例。用一般術語,每個實體被看作一個對象。對于 AllElectronics 例子,對象可以是每個雇員、顧客、商品。涉及一個對象的數據和代碼封裝在一個單 元中。每個對象關聯
對象-關系數據庫基于對象-關系數據模型構造。該模型通過提供處理復雜對象的豐富數據類型 和對象定位,擴充關系模型。此外,它還包含關系查詢語言的特殊構造,以便管理增加的數據類型。 通過增加處理復雜數據類型、類層次結構和如上所述的對象繼承,對象-關系模型擴充了基本關系模 型。對象-關系數據庫在工業和應用正日趨流行。
空間數據庫包含涉及空間的信息。這種數據庫包括地理(地圖)數據庫、VLSI 芯片設計數據庫、 醫療和衛星圖象數據庫??臻g數據可能以光柵格式提供,由 n 維位圖或象素圖構成。例如,一個 2 維衛星圖象可以用光柵數據表示,每個象素存放一個給定區域的降雨量。地圖也可以用向量格式提 供,其中,路、橋、建筑物和湖泊可以用諸如點、線、多邊形和這些形狀形成的分化和網絡等基本 地理結構表示
時間數據庫和時間序列數據庫都存放與時間有關的數據。時間數據庫通常存放包含時間相關屬 性的數據。這些屬性可能涉及若干時間標簽,每個都具有不同的語義。時間序列數據庫存放隨時間 變化的值序列,如,收集的股票交易數據。
文本數據庫是包含對象文字描述的數據庫。通常,這種詞描述不是簡單的關鍵詞,而是長句子 或短文,如產品介紹、錯誤或故障報告、警告信息、匯總報告、筆記或其它文檔。文本數據庫可能 是高度非規格化的(如,萬維網上的網頁)。有些文本數據庫可能是半結構化的(如 email 消息和 一些 HTML/XML 網頁),而其它的可能是良結構化的(如圖書館數據庫)。通常,具有很好結構 的文本數據庫可以使用關系數據庫系統實現。
多媒體數據庫存放圖象、音頻和視頻數據。它們用于基于圖內容的提取、聲音傳遞、錄像點播、 萬維網和識別口語命令的基于語音的用戶界面等方面。多媒體數據庫必須支持大對象,因為象視頻 這樣的數據對象可能需要數十億字節的存儲。還需要特殊的存儲和檢索技術,因為視頻和音頻數據 需要以穩定的、預先確定的速率實時檢索,防止圖象或聲音間斷和系統緩沖區溢出。這種數據稱為 連續媒體數據。
異種數據庫由一組互連的、自治的成員數據庫組成。這些成員相互通訊,以便交換信息和回答 查詢。一個成員數據庫中的對象可能與其它成員數據庫中的對象很不相同,使得很難將它們的語義 吸收進一個整體的異種數據庫中。 許多企業需要遺產數據庫,作為信息技術長時間開發(包括使用不同的硬件和操作系統)的結 果。遺產數據庫是一組異種數據庫,它將不同的數據系統組合在一起。這些數據系統如關系或對象 -關系數據庫、層次數據庫、網狀數據庫、電子表格、多媒體數據庫或文件系統。遺產數據庫中的異 種數據庫可以通過網內或網間計算機網絡連接。
萬維網和與之關聯的分布信息服務(如,美國在線,Yahoo!, Alta Vista, Prodigy)提供了豐富的、 世界范圍的聯機信息服務;這里,數據對象被鏈接在一起,便于交互訪問。用戶通過鏈接,從一個 對象到另一個,尋找有趣的信息。這種系統對數據挖掘提供了大量機會和挑戰。例如,理解用戶的 訪問模式不僅能夠幫助改進系統設計(通過提供高度相關的對象間的有效訪問),而且還可以引導 更好的市場決策(例如,通過在頻繁訪問的文檔上布置廣告,或提供更好的顧客/用戶分類和行為分 析)。在這種分布式信息環境下,捕獲用戶訪問模式稱作挖掘路徑遍歷模式。
1.4 數據挖掘功能——可以挖掘什么類型的模式?
由于有些模式并非對數據庫中的所 有數據都成立,通常每個被發現的模式帶上一個確定性或“可信性”度量。
1.4.1 概念/類描述:特征和區分
數據可以與類或概念相關聯。例如,在 AllElectronics 商店,銷售的商品類包括計算機和打印機, 顧客概念包括 bigSpenders 和 budgetSpenders。用匯總的、簡潔的、精確的方式描述每個類和概念可 能是有用的。這種類或概念的描述稱為類/概念描述。這種描述可以通過下述方法得到(1)數據特 征化,一般地匯總所研究類(通常稱為目標類)的數據,或(2)數據區分,將目標類與一個或多 個比較類(通常稱為對比類)進行比較,或(3)數據特征化和比較。
例1.4 數據挖掘系統應當能夠產生一年之內在AllElectronics花費$1000以上的顧客匯總特征的 描述。結果可能是顧客的一般輪廓,如年齡在 40-50、有工作、有很好的信譽度。系統將允許用戶 在任意維下鉆,如在 occupation 下鉆,以便根據他們的職業來觀察這些顧客。
例 1.5 數據挖掘系統應當能夠比較兩組 AllElectronics 顧客,如定期(每月多于 2 次)購買計 算機產品的顧客和偶爾(即,每年少于 3 次)購買這種產品的顧客。結果描述可能是一般的比較輪 廓,如經常購買這種產品的顧客 80%在 20-40 歲之間,受過大學教育;而不經常購買這種產品的顧 客 60%或者太老,或者太年青,沒有大學學位。沿著維下鉆,如沿 occupation 維,或添加新的維, 如 income_level,可以幫助發現兩類之間的更多區分特性
1.4.2 關聯分析
“什么是關聯分析?”關聯分析發現關聯規則,這些規則展示屬性-值頻繁地在給定數據集中一 起出現的條件。關聯分析廣泛用于購物籃或事務數據分析。
更形式地,關聯規則是形如 X ? Y,即”A1 ∧...∧ Am ? B1 ∧...∧ Bn”的規則;其中, Ai (i∈{1,...,m}), Bj (j∈{1,...,n})是屬性-值對。關聯規則解釋為“滿足 X 中條件的數據庫元組多半也滿足 Y 中條件”。 例 1.6 給定 AllElectronics 關系數據庫,一個數據挖掘系統可能發現如下形式的規則
age(X ,"20 ? 29") ∧ income(X ,"20 ? 30K") ? buys(X ,"CD _ player") [support = 2%,confidence = 60%]
其中,X 是變量,代表顧客。該規則是說,所研究的 AllElectronics 顧客 2%(支持度)在 20-29 歲, 年收入 20-29K,并且在 AllElectronics 購買 CD 機。這個年齡和收入組的顧客購買 CD 機的可能性有 60%(置信度或可信性)。
1.4.3 分類和預測
分類是這樣的過程,它找描述或識別數據類或概念的模型(或函數),以便能夠使用模型預測類 標號未知的對象。導出模型是基于對訓練數據集(即,其類標號已知的數據對象)的分析。
“如何提供導出模型?”導出模式可以用多種形式表示,如分類(IF-THEN)規則、判定樹、 數學公式、或神經網絡。判定樹是一個類似于流程圖的結構,每個結點代表一個屬性值上的測試, 每個分枝代表測試的一個輸出,樹葉代表類或類分布。判定樹容易轉換成分類規則。當用于分類時, 神經網絡是一組類似于神經元的處理單元,單元之間加權連接。
分類可以用來預測數據對象的類標號。然而,在某些應用中,人們可能希望預測某些遺漏的或 不知道的數據值,而不是類標號。當被預測的值是數值數據時,通常稱之為預測。盡管預測可以涉 及數據值預測和類標號預測,通常預測限于值預測,并因此不同于分類。預測也包含基于可用數據 的分布趨勢識別。 相關分析可能需要在分類和預測之前進行,它試圖識別對于分類和預測無用的屬性。這些屬性 應當排除
第 7 章將詳細討論分類和預
1.4.4 聚類分析
“何為聚類分析?”與分類和預測不同,聚類分析數據對象,而不考慮已知的類標號。一般地, 訓練數據中不提供類標號,因為不知道從何開始。聚類可以產生這種標號。
聚類分析形成第 8 章的主題。
1.4.5 局外者分析
數據庫中可能包含一些數據對象,它們與數據的一般行為或模型不一致。這些數據對象是局外 者。大部分數據挖掘方法將局外者視為噪音或例外而丟棄。然而,在一些應用中(如,欺騙檢測), 罕見的事件可能比正規出現的那些更有趣。局外者數據分析稱作局外者挖掘。
例 1.9 局外者分析可以發現信用卡欺騙。通過檢測一個給定帳號與正常的付費相比,付款數額 特別大來發現信用卡欺騙性使用。局外者值還可以通過購物地點和類型,或購物頻率來檢測。 局外者分析也在第 8 章討論
1.4.6 演變分析
數據演變分析描述行為隨時間變化的對象的規律或趨勢,并對其建模。盡管這可能包括時間相 關數據的特征、區分、關聯、分類或聚類,這類分析的不同特點包括時間序列數據分析、序列或周 期模式匹配和基于類似性的數據分析
數據演變分析將在第 9 章進一步討論。
1.5 所有模式都是有趣的嗎?
對于給定的用戶,在可能 產生的模式中,只有一小部分是他感興趣的。
這對數據挖掘系統提出了一系列的問題。你可能會想:“什么樣的模式是有趣的?數據挖掘系 統能夠產生所有有趣的模式嗎?數據挖掘系統能夠僅產生有趣的模式嗎?” 對于第一個問題,一個模式是有趣的,如果(1)它易于被人理解,(2)在某種程度上,對于 新的或測試數據是有效的,(3)是潛在有用的,(4)是新穎的。如果一個模式符合用戶確信的某 種假設,它也是有趣的。有趣的模式表示知識。
存在一些模式興趣度的客觀度量。這些基于所發現模式的結構和關于它們的統計。對于形如 X?Y 的關聯規則,一種客觀度量是規則的支持度。規則的支持度表示滿足規則的樣本百分比。支持 度是概率 P (X ∪ Y ),其中,X ∪ Y 表示同時包含 X 和 Y 的事務;即,項集 X 和 Y 的并。關聯規則 的另一種客觀度量是置信度。置信度是條件概率 P (Y | X);即,包含 X 的事務也包含 Y 的概率。更 形式地,支持度和置信度定義為
support (X ? Y ) = P (X ∪ Y )
confidence (X ? Y ) = P (Y | X)
一般地,每個興趣度度量都與一個閾值相關聯,該閾值可以由用戶控制。例如,不滿足置信度 閾值 50%的規則可以認為是無趣的。低于閾值的規則可能反映噪音、例外,或少數情況,可能不太 有價值。
1.6 數據挖掘系統的分類
數據挖掘是一個交叉科學領域,受多個學科影響(見圖 1.11),包括數據庫系統、統計、機器 學習、可視化和信息科學。此外,依賴于所用的數據挖掘方法,可以使用其它學科的技術,如神經 網絡、模糊/粗糙集理論、知識表示、歸納邏輯程序設計、或高性能計算。依賴于所挖掘的數據類型 或給定的數據挖掘應用,數據挖掘系統也可能集成空間數據分析、信息提取、模式識別、圖象分析、 信號處理、計算機圖形學、Web 技術、經濟、或心理學領域的技術。
根據挖掘的數據庫類型分類
根據挖掘的知識類型分類
根據所用的技術分類
根據應用分類
1.7 數據挖掘的主要問題
本書強調數據挖掘的主要問題,考慮挖掘技術、用戶界面、性能和各種數據類型。
數據挖掘技術和用戶界面問題:這反映所挖掘的知識類型、在多粒度上挖掘知識的能力、領域 知識的使用、特定的挖掘和知識顯示。
性能問題:這包括數據挖掘算法的有效性、可規模性和并行處理。
等等
1.8 總結
數據庫技術已經從原始的數據處理,發展到開發具有查詢和事務處理能力的數據庫管理系統。 進一步的發展導致越來越需要有效的數據分析和數據理解工具。這種需求是各種應用收集的數 據爆炸性增長的必然結果;這些應用包括商務和管理、行政管理、科學和工程、環境控制。
數據挖掘是從大量數據中發現有趣模式,這些數據可以存放在數據庫、數據倉庫或其它信息存 儲中。這是一個年青的跨學科領域,源于諸如數據庫系統、數據倉庫、統計、機器學習、數據 可視頻化、信息提取和高性能計算。其它有貢獻的領域包括神經網絡、模式識別、空間數據分 析、圖象數據庫、信號處理和一些應用領域,包括商務、經濟和生物信息學。
知識發現過程包括數據清理、數據集成、數據變換、數據挖掘、模式評估和知識表示。
數據模式可以從不同類型的數據庫挖掘;如關系數據庫,數據倉庫,事務的、對象-關系的和面 向對象的數據庫。有趣的數據模式也可以從其它類型的信息存儲中提取,包括空間的、時間相 關的、文本的、多媒體的和遺產數據庫,以及萬維網。
數據倉庫是一種數據的長期存儲,這些數據來自多數據源,是有組織的,以便支持管理決策。 這些數據在一種一致的模式下存放,并且通常是匯總的。數據倉庫提供一些數據分析能力,稱 作 OLAP(聯機分析處理)。
數據挖掘功能包括發現概念/類描述、關聯、分類、預測、聚類、趨勢分析、偏差分析和類似性 分析。特征和區分是數據匯總的形式。 模式提供知識,如果它易于被人理解、在某種程度上對于測試數據是有效的、潛在有用的、新 穎的,或者它驗證了用戶關注的某種預感。模式興趣度度量,無論是客觀的還是主觀的,都可 以用來指導發現過程。
數據挖掘系統可以根據所挖掘的數據庫類型、所挖掘的知識類型、或所使用的技術加以分類。
大型數據庫中有效的數據挖掘對于研究者和開發者提出了大量需求和巨大的挑戰。問題涉及數 據挖掘技術、用戶交互、性能和可規模性、以及大量不同數據類型的處理。其它問題包括數據 挖掘的應用開發和它們的社會影響。
?
?
總結
以上是生活随笔為你收集整理的数据挖掘:概念与技术笔记(一)引言的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: scanpy和umap版本不匹配问题总结
- 下一篇: 公司服务器中了.Monkey865qqz