【数据挖掘】数据挖掘算法 组件化思想 ( 模型或模式结构 | 数据挖掘任务 | 评分函数 | 搜索和优化算法 | 数据管理策略 )
文章目錄
- 一、 數(shù)據(jù)挖掘算法組件化
- 二、 組件一 : 模型或模式結(jié)構(gòu)
- 三、 組件二 : 數(shù)據(jù)挖掘任務(wù)
- 四、 組件三 : 評分函數(shù)
- 五、 組件四 : 搜索和優(yōu)化算法
- 六、 組件五 : 數(shù)據(jù)管理策略
- 七、 數(shù)據(jù)挖掘算法 組件化思想應(yīng)用
一、 數(shù)據(jù)挖掘算法組件化
1 . 數(shù)據(jù)挖掘算法現(xiàn)狀 : 目前數(shù)據(jù)挖掘領(lǐng)域算法很多 , 并且每年都會有有大量算法提出 ;
2 . 數(shù)據(jù)挖掘算法本質(zhì) : 但其本質(zhì)都是類似的 , 新推出算法在原來的算法的基礎(chǔ)上進(jìn)行優(yōu)化改進(jìn) , 形成了目前的大量算法種類 ;
3 . 組件化學(xué)習(xí)應(yīng)用 : 通過組件化思想來理解數(shù)據(jù)挖掘算法 , 將算法模塊化 , 不同模塊的排列組合就形成了不同種類的算法 , 因此核心就是學(xué)習(xí)這些算法的模塊組件 ;
① 組件原理 : 每種組件的原理基本相同 , 掌握一種組件原理后 , 學(xué)習(xí)另一種組件就比較輕松 ;
② 組件角度 : 從組件角度對比不同的算法 , 更容易看出算法之間的差異 ;
4 . 數(shù)據(jù)挖掘算法的五個標(biāo)準(zhǔn)組件 :
- ① 模型或模式結(jié)構(gòu) : 決策樹模型 , ( 信念 ) 貝葉斯模型 , 神經(jīng)網(wǎng)絡(luò)模型 等 ;
- ② 數(shù)據(jù)挖掘任務(wù) : 概念描述 , 關(guān)聯(lián)分析 , 分類 , 聚類 , 異常檢測 , 趨勢分析 等 ;
- ③ 評分函數(shù) : 誤差平方和 , 最大似然 , 準(zhǔn)確率 等 ;
- ④ 搜索和優(yōu)化方法 : 隨機梯度下降 ;
- ⑤ 數(shù)據(jù)管理策略 : 數(shù)據(jù)存儲 , 數(shù)據(jù)庫相關(guān) ;
二、 組件一 : 模型或模式結(jié)構(gòu)
1 . 模型或模式結(jié)構(gòu) : 通過 數(shù)據(jù)挖掘過程 得到知識 ; 是算法的輸出格式 , 使用 模型 / 模式 將其表達(dá)出來, 如 : 線性回歸模型 , 層次聚類模型 , 頻繁序列模式 等 ;
2 . 模型 或 模式 表達(dá) : 模型或模式表達(dá)方式各種各樣 , 如公式 , 數(shù)據(jù)等 ;
① 線性回歸模型 : 是一個數(shù)學(xué)公式 y=ax+by = ax + by=ax+b ;
② 層次聚類模型 : 是一個樹狀結(jié)構(gòu)的數(shù)據(jù) ;
3 . 模型 ( 全局 ) :
① 模型概念 : 模型是在 全局層次 對 整個數(shù)據(jù)集 的 描述或總結(jié) ;
② 模型適用范圍 : 模型適用于數(shù)據(jù)集中的所有對象 ;
③ 抽象描述 : 模型本質(zhì)是對現(xiàn)實世界進(jìn)行的抽象描述 ;
④ 模型舉例 : 數(shù)學(xué)公式 y=ax+by = ax + by=ax+b , 只要給出 xxx 值 , 就必定有一個 yyy 值與之對應(yīng) , 沒有特例 , 所有的 xxx 都適用于該模型 ;
4 . 模式 ( 局部 ) :
① 模式概念 : 模式是在 局部范圍 對 部分?jǐn)?shù)據(jù) 的 描述 ;
② 模式適用范圍 : 局部適用 , 僅對小部分?jǐn)?shù)據(jù)描述有效 ;
③ 模式內(nèi)容 : 模式中只能描述部分對象 , 或?qū)ο蟮牟糠謱傩?, 并不能描述全部對象 以及 全部屬性 ;
④ 模式舉例 : 部分關(guān)聯(lián) , 如部分顧客購買啤酒時 , 也買了尿布 , 該信息局部有效 , 并沒有對全局?jǐn)?shù)據(jù)進(jìn)行總結(jié) ;
5 . 模型 與 模式 聯(lián)系 : 全局的模型 和 局部的模式 是相互聯(lián)系的 ; 模型與模式聯(lián)系的示例 , 如下異常檢測示例 :
① 需求 : 異常檢測中 , 想要檢測出 異常數(shù)據(jù) , 就必須先知道 什么是正常數(shù)據(jù) ;
② 描述 : 這里的對正常數(shù)據(jù)的描述就是 全局模型 , 異常數(shù)據(jù)描述 就是 局部模式 ;
6 . 模型 和 模式 參數(shù) : 模型 , 模式 都與參數(shù)相關(guān) ,
① 模型參數(shù) : 如 數(shù)學(xué)公式 y=ax+by = ax + by=ax+b 中 , aaa 和 bbb 就是模型的參數(shù) ;
② 模式參數(shù) : 如 : 如果 x>ax > ax>a , 則 y>by>by>b 的概率是 ccc , 其中 a,b,ca, b, ca,b,c 就是模式的參數(shù) ;
7 . 不確定的模型 ( 模式 ) : 不確定的模式 或 模式 叫 結(jié)構(gòu) ;
① 模型結(jié)構(gòu) : 參數(shù)不確定的模型是模型結(jié)構(gòu) ;
② 模式結(jié)構(gòu) : 參數(shù)不確定的模式是模式結(jié)構(gòu) ;
8 . 擬合的模型 ( 模式 ) :
① 參數(shù)確定 : 如果 模型 或 模式 參數(shù)確定 , 那么該模型稱為 已經(jīng)擬合的模型 ( 模式 ) , 可以簡稱為 模型 ( 模式 ) ;
② 總結(jié) : 不確定的模型叫做 模型結(jié)構(gòu) , 確定的 模型 或 模式 直接稱為 模型 ( 模式 ) ;
三、 組件二 : 數(shù)據(jù)挖掘任務(wù)
1 . 數(shù)據(jù)挖掘任務(wù)分類 : 根據(jù)數(shù)據(jù)挖掘的目標(biāo) , 可以將數(shù)據(jù)挖掘任務(wù)分為以下幾類 : ① 模式挖掘 , ② 描述建模 , ③ 預(yù)測建模 ;
① 模式挖掘 : 如 異常模式 , 頻繁模式 ;
② 描述建模 : 如 聚類分析 ;
③ 預(yù)測建模 : 如 分類預(yù)測 , 趨勢分析等 ;
2 . 模型挖掘與模式挖掘 : 描述建模 和 預(yù)測建模 可以看做是 模型挖掘 , 與 模式挖掘 對應(yīng) ;
3 . 模式挖掘 : 從數(shù)據(jù)集中尋找特定的模式 , 如 異常模式 . 頻繁模式 等類型的模式 ;
4 . 頻繁模式 : 在某個數(shù)據(jù)集中 , 頻繁出現(xiàn)的模式 ;
① 模式類型 : 某個數(shù)據(jù) , 子數(shù)據(jù)集 , 項集 , 子序列 , 子圖 等結(jié)構(gòu) ;
② 頻繁的項集 : 如交易數(shù)據(jù)中 , 啤酒和尿布經(jīng)常出現(xiàn)在一起 , 牛奶和面包經(jīng)常出現(xiàn)在一起 , 稱為頻繁項集 ;
③ 頻繁的子序列 : 消費者購買電腦后會購買打印機 , 然后購買打印紙 , 電腦 打印機 打印紙 就是頻繁子序列 ;
④ 頻繁的子結(jié)構(gòu) : 在圖結(jié)構(gòu)數(shù)據(jù)中頻繁出現(xiàn)子圖 , 樹結(jié)構(gòu)數(shù)據(jù)中頻繁出現(xiàn)子樹 , 被稱為頻繁子樹 ;
5 . 預(yù)測建模 : 先根據(jù)現(xiàn)有數(shù)據(jù)建立模型 , 然后根據(jù)該模型預(yù)測未來的數(shù)據(jù) ; ( 先建模 , 再預(yù)測 )
① 分類 : 被預(yù)測的數(shù)據(jù)類型是 范疇型的 , 數(shù)據(jù)種類有限 ; 如 : 結(jié)果 好 , 壞 兩種 ; 病情 : 良好 , 恢復(fù) , 惡化 三種 ;
② 回歸 : 被預(yù)測的數(shù)據(jù)類型是 數(shù)值型的 , 如 電影票房 , 國家 GDP , 是一個數(shù)值型的 ;
6 . 分類模型 與 回歸模型 :
① 分類模型 : 又叫 分類函數(shù) , 分類器 ;
② 分類模型應(yīng)用 : 信用等級評價 , 治療疾病的診斷 等 ;
③ 有監(jiān)督學(xué)習(xí) : 分類過程中 , 使用了訓(xùn)練集進(jìn)行訓(xùn)練學(xué)習(xí) , 這是一個有監(jiān)督的學(xué)習(xí)過程 ;
④ 回歸模型 : 一般用于 性能評估 , 概率評估 等領(lǐng)域 ;
7 . 描述建模 : 描述數(shù)據(jù)的全局性特征 ;
① 描述建模 與 預(yù)測建模區(qū)別 : 變量個數(shù)不同 , 預(yù)測建模預(yù)測的變量是 1 個 , 如個人信用等級 , 疾病病情等級 等 ; 描述建模描述多個變量 ;
② 描述建模示例 : 聚類分析 ;
8 . 分類 與 聚類 對比 :
① 分類 : 數(shù)據(jù)有 n 個變量 , 已知 n - 1 個變量 ; 目標(biāo)是預(yù)測未知的那個變量的值 ; 預(yù)測建模的本質(zhì)是找到 n - 1 個變量 與 最后一個變量的模型 ; 根據(jù)一條數(shù)據(jù)的 n - 1 個變量 , 得出其最后一個變量值 ;
② 聚類 : 數(shù)據(jù)有 n 個變量 , 所有的變量都是已知的 ; 如果某幾個數(shù)據(jù)的某幾個變量相似 , 那么將這幾個數(shù)據(jù)分成一組 , 目標(biāo)是分組 ; 根據(jù)多條數(shù)據(jù)的 n 個變量 , 將多條數(shù)據(jù)進(jìn)行分組 ;
四、 組件三 : 評分函數(shù)
1 . 參數(shù)不確定 : 參數(shù)不確定的 模型 ( 模式 ) 叫做 模型 ( 模式 ) 的結(jié)構(gòu) , 即知道結(jié)構(gòu) , 但不知道具體的 模型 ( 模式 ) ;
2 . 結(jié)構(gòu)擬合數(shù)據(jù) : 知道 模型 ( 模式 ) 結(jié)構(gòu)后 , 需要進(jìn)一步確定結(jié)構(gòu)中的參數(shù)值 , 依據(jù)就是現(xiàn)有的數(shù)據(jù)集 , 這個過程就是將結(jié)構(gòu)擬合到數(shù)據(jù) ;
3 . 評分函數(shù)引入 : 如模型結(jié)構(gòu) y=ax+by = ax + by=ax+b 中 , aaa 和 bbb 是模型的參數(shù) , 其取值范圍是 (?∞,+∞)(-\infty , +\infty)(?∞,+∞) , 如何評價參數(shù)值選取的是否合適 , 需要給出評價標(biāo)準(zhǔn) , 這個評價標(biāo)準(zhǔn)就是評分函數(shù) ;
4 . 評分函數(shù) :
① 評分函數(shù)概念 : 評分函數(shù)用于評估 數(shù)據(jù)集 與 模型 ( 模式 ) 的擬合程度 , 值 越大 ( 越小 ) 越好 ;
② 評分函數(shù)作用 : 為 模型 ( 模式 ) 選出最合適的參數(shù)值 ;
③ 常用的評分函數(shù) : 似然函數(shù) , 誤差平方和 , 準(zhǔn)確率 , 支持度 , 可信度 等 ;
④ 誤差平方和示例 : 模型結(jié)構(gòu) y=ax+by = ax + by=ax+b , 使用模型預(yù)測出的 yyy 值為 y′y'y′ , 真實的值為 yyy , 計算出 單條數(shù)據(jù)的 誤差平方 (y?y′)2(y - y')^2(y?y′)2 , 將所有數(shù)據(jù)的 誤差平方 相加 , 就是誤差平方和 ; 這個值越小越好 ;
5 . 評分函數(shù)要求 :
① 擬合 : 為 模型 ( 模式 ) 選擇的評分函數(shù) , 能很好的擬合當(dāng)前已知的數(shù)據(jù)集 ;
② 避免過擬合 : 評分函數(shù)要避免過擬合 , 對極端數(shù)據(jù)過于敏感 , 這是沒有必要的 ; 如出現(xiàn)極端數(shù)據(jù) , 模型劇烈變化 , 模型需要的是穩(wěn)定 ;
③ 模型簡潔 : 擬合后的模型盡量簡潔 ;
6 . 模型 ( 模式 ) 的特點 :
① 模型 ( 模式 ) 近似性 : 不存在絕對正確的 模型 ( 模式 ) , 所有的 模型 ( 模式 ) 要求近似即可 ;
② 模型 ( 模式 ) 穩(wěn)定性 : 模型 ( 模式 ) 不隨著數(shù)據(jù)變化而變化 ; 如出現(xiàn)極端數(shù)據(jù) , 模型劇烈變化 ; 模型 ( 模式 ) 要做到對數(shù)據(jù)的微笑變化不敏感 ;
五、 組件四 : 搜索和優(yōu)化算法
1 . 評分函數(shù)作用 : 衡量 模型 ( 模式 ) 與已知數(shù)據(jù)集的 擬合程度 ;
2 . 搜索和優(yōu)化算法作用 : 確定 模型 ( 模式 ) 以及其相關(guān)的 參數(shù)值 , 該模型 ( 模式 ) 使評分函數(shù) 達(dá)到某個最大 ( 最小 ) 值 ; 本質(zhì)是幫助評分函數(shù)取得 最大 ( 最小 ) 值的方法 ;
3 . 搜索問題 和 優(yōu)化問題 :
① 結(jié)構(gòu)確定求參數(shù) ( 優(yōu)化問題 ) : 模型 ( 模式 ) 結(jié)構(gòu)確定后 , 目的就是為了確定參數(shù)值 , 針對固定的 模式 ( 模型 ) 結(jié)構(gòu) , 確定一組參數(shù)值 , 使評分函數(shù)最優(yōu) , 這是優(yōu)化問題 ;
② 結(jié)構(gòu)不確定 ( 搜索問題 ) : 搜索 既需要確定 模型 ( 模式 ) 的結(jié)構(gòu) , 又需要確定其參數(shù)值 , 這種類型是搜索問題 ;
③ 搜索和優(yōu)化對比 : 模型 ( 模式 ) 結(jié)構(gòu)確定 , 獲取其最優(yōu)參數(shù)是優(yōu)化問題 ; 模型 ( 模式 ) 結(jié)構(gòu)不確定 , 是搜索問題 ;
4 . 常用的優(yōu)化和搜索方法 :
① 優(yōu)化方法 : 爬山算法 , 最陡峭下降 , 期望最大化方法 , 隨機梯度下降 ;
② 搜索方法 : 貪婪搜索 , 分支界定法 , 寬度 / 深度 優(yōu)先遍歷方法 ; 其中貪婪搜索方法每一步都是當(dāng)前最優(yōu)結(jié)果 , 全局不一定是最優(yōu)的 ;
六、 組件五 : 數(shù)據(jù)管理策略
1 . 傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù) :
① 傳統(tǒng)數(shù)據(jù) : 傳統(tǒng)的數(shù)據(jù)管理方法是將數(shù)據(jù)都放入內(nèi)存中 , 少量數(shù)據(jù) , 直接在內(nèi)存中處理 , 不需要特別關(guān)注數(shù)據(jù)管理技術(shù) ;
② 大數(shù)據(jù) : 數(shù)據(jù)挖掘中的數(shù)據(jù)一般是 GB , TB 甚至 PB 級別的大數(shù)據(jù) , 如果使用傳統(tǒng)的內(nèi)存算法處理這些數(shù)據(jù) , 性能會很低 ;
2 . 海量數(shù)據(jù)管理 : 目的是提高數(shù)據(jù)挖掘算法的性能 , 減少數(shù)據(jù)的訪問次數(shù) , 通過采樣 , 近似 , 索引 , 組織管理數(shù)據(jù) ;
七、 數(shù)據(jù)挖掘算法 組件化思想應(yīng)用
1. 算法核心體現(xiàn) : 將數(shù)據(jù)挖掘算法分解成一個個核心的組件 , 這些組件是算法核心機制的體現(xiàn) ;
2 . 組件化應(yīng)用 : 當(dāng)面對新需求時 , 不需要整體照搬某個現(xiàn)成的算法 , 應(yīng)該根據(jù)需求 , 選擇不同的組件 , 組成新算法解決當(dāng)前的數(shù)據(jù)挖掘問題 ;
舉例 : 如當(dāng)前的需求 , 模型結(jié)構(gòu)采用哪個類型 , 評分函數(shù)使用哪個 , 搜索優(yōu)化方法選取 等 , 拼接組裝成一個新的數(shù)據(jù)挖掘算法 ;
3 . 人和計算機分工 :
① 人工工作 : 模型 ( 模式 ) 結(jié)構(gòu) 和 評分函數(shù) , 一般是開發(fā)者來確定 ;
② 計算機工作 : 搜索和優(yōu)化評分函數(shù)過程 , 由計算機實現(xiàn) ;
4 . 算法側(cè)重方向 ( 完備性 / 計算效率 ) :
① 小數(shù)據(jù) : 數(shù)據(jù)集比較小 , 側(cè)重于 模型 ( 模式 ) 的能力 , 如描述 , 預(yù)測 的準(zhǔn)確性 ;
② 大數(shù)據(jù) : 側(cè)重于計算的效率 , 需要在 模型 ( 模式 ) 的能力 和 計算效率之間找平衡點 , 如 算法預(yù)測明天的股票預(yù)測的很準(zhǔn)確 , 但是要運行好幾年 , 沒有任何意義 ;
總結(jié)
以上是生活随笔為你收集整理的【数据挖掘】数据挖掘算法 组件化思想 ( 模型或模式结构 | 数据挖掘任务 | 评分函数 | 搜索和优化算法 | 数据管理策略 )的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Java 集合】Java 集合的线程安
- 下一篇: 【数据挖掘】数据挖掘算法 组件化思想 示