當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【数据挖掘】数据挖掘算法组件化思想 ( 模型或模式结构 | 数据挖掘任务 | 评分函数 | 搜索和优化算法 | 数据管理策略 )

發(fā)布時間：2025/6/17 编程问答 23 豆豆

生活随笔收集整理的這篇文章主要介紹了【数据挖掘】数据挖掘算法组件化思想 ( 模型或模式结构 | 数据挖掘任务 | 评分函数 | 搜索和优化算法 | 数据管理策略 ) 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

一、數(shù)據(jù)挖掘算法組件化
二、組件一 : 模型或模式結(jié)構(gòu)
三、組件二 : 數(shù)據(jù)挖掘任務(wù)
四、組件三 : 評分函數(shù)
五、組件四 : 搜索和優(yōu)化算法
六、組件五 : 數(shù)據(jù)管理策略
七、數(shù)據(jù)挖掘算法組件化思想應(yīng)用

一、數(shù)據(jù)挖掘算法組件化

1 . 數(shù)據(jù)挖掘算法現(xiàn)狀 : 目前數(shù)據(jù)挖掘領(lǐng)域算法很多 , 并且每年都會有有大量算法提出 ;

2 . 數(shù)據(jù)挖掘算法本質(zhì) : 但其本質(zhì)都是類似的 , 新推出算法在原來的算法的基礎(chǔ)上進(jìn)行優(yōu)化改進(jìn) , 形成了目前的大量算法種類 ;

3 . 組件化學(xué)習(xí)應(yīng)用 : 通過組件化思想來理解數(shù)據(jù)挖掘算法 , 將算法模塊化 , 不同模塊的排列組合就形成了不同種類的算法 , 因此核心就是學(xué)習(xí)這些算法的模塊組件 ;

① 組件原理 : 每種組件的原理基本相同 , 掌握一種組件原理后 , 學(xué)習(xí)另一種組件就比較輕松 ;

② 組件角度 : 從組件角度對比不同的算法 , 更容易看出算法之間的差異 ;

4 . 數(shù)據(jù)挖掘算法的五個標(biāo)準(zhǔn)組件 :

① 模型或模式結(jié)構(gòu) : 決策樹模型 , ( 信念 ) 貝葉斯模型 , 神經(jīng)網(wǎng)絡(luò)模型等 ;
② 數(shù)據(jù)挖掘任務(wù) : 概念描述 , 關(guān)聯(lián)分析 , 分類 , 聚類 , 異常檢測 , 趨勢分析等 ;
③ 評分函數(shù) : 誤差平方和 , 最大似然 , 準(zhǔn)確率等 ;
④ 搜索和優(yōu)化方法 : 隨機梯度下降 ;
⑤ 數(shù)據(jù)管理策略 : 數(shù)據(jù)存儲 , 數(shù)據(jù)庫相關(guān) ;

二、組件一 : 模型或模式結(jié)構(gòu)

1 . 模型或模式結(jié)構(gòu) : 通過數(shù)據(jù)挖掘過程得到知識 ; 是算法的輸出格式 , 使用模型 / 模式將其表達(dá)出來, 如 : 線性回歸模型 , 層次聚類模型 , 頻繁序列模式等 ;

2 . 模型或模式表達(dá) : 模型或模式表達(dá)方式各種各樣 , 如公式 , 數(shù)據(jù)等 ;

① 線性回歸模型 : 是一個數(shù)學(xué)公式 $y = a x + b$ ;

② 層次聚類模型 : 是一個樹狀結(jié)構(gòu)的數(shù)據(jù) ;

3 . 模型 ( 全局 ) :

① 模型概念 : 模型是在 全局層次 對 整個數(shù)據(jù)集 的 描述或總結(jié) ;

② 模型適用范圍 : 模型適用于數(shù)據(jù)集中的所有對象 ;

③ 抽象描述 : 模型本質(zhì)是對現(xiàn)實世界進(jìn)行的抽象描述 ;

④ 模型舉例 : 數(shù)學(xué)公式 $y = a x + b$ , 只要給出 $x$ 值 , 就必定有一個 $y$ 值與之對應(yīng) , 沒有特例 , 所有的 $x$ 都適用于該模型 ;

4 . 模式 ( 局部 ) :

① 模式概念 : 模式是在 局部范圍 對 部分?jǐn)?shù)據(jù) 的描述 ;

② 模式適用范圍 : 局部適用 , 僅對小部分?jǐn)?shù)據(jù)描述有效 ;

③ 模式內(nèi)容 : 模式中只能描述部分對象 , 或?qū)ο蟮牟糠謱傩?, 并不能描述全部對象以及全部屬性 ;

④ 模式舉例 : 部分關(guān)聯(lián) , 如部分顧客購買啤酒時 , 也買了尿布 , 該信息局部有效 , 并沒有對全局?jǐn)?shù)據(jù)進(jìn)行總結(jié) ;

5 . 模型與模式聯(lián)系 : 全局的模型和局部的模式是相互聯(lián)系的 ; 模型與模式聯(lián)系的示例 , 如下異常檢測示例 :

① 需求 : 異常檢測中 , 想要檢測出異常數(shù)據(jù) , 就必須先知道什么是正常數(shù)據(jù) ;

② 描述 : 這里的對正常數(shù)據(jù)的描述就是全局模型 , 異常數(shù)據(jù)描述就是局部模式 ;

6 . 模型和模式參數(shù) : 模型 , 模式都與參數(shù)相關(guān) ,

① 模型參數(shù) : 如數(shù)學(xué)公式 $y = a x + b$ 中 , $a$ 和 $b$ 就是模型的參數(shù) ;

② 模式參數(shù) : 如 : 如果 $x > a$ , 則 $y > b$ 的概率是 $c$ , 其中 $a, b, c$ 就是模式的參數(shù) ;

7 . 不確定的模型 ( 模式 ) : 不確定的模式或模式叫結(jié)構(gòu) ;

① 模型結(jié)構(gòu) : 參數(shù)不確定的模型是模型結(jié)構(gòu) ;

② 模式結(jié)構(gòu) : 參數(shù)不確定的模式是模式結(jié)構(gòu) ;

8 . 擬合的模型 ( 模式 ) :

① 參數(shù)確定 : 如果模型或模式參數(shù)確定 , 那么該模型稱為已經(jīng)擬合的模型 ( 模式 ) , 可以簡稱為模型 ( 模式 ) ;

② 總結(jié) : 不確定的模型叫做模型結(jié)構(gòu) , 確定的模型或模式直接稱為模型 ( 模式 ) ;

三、組件二 : 數(shù)據(jù)挖掘任務(wù)

1 . 數(shù)據(jù)挖掘任務(wù)分類 : 根據(jù)數(shù)據(jù)挖掘的目標(biāo) , 可以將數(shù)據(jù)挖掘任務(wù)分為以下幾類 : ① 模式挖掘 , ② 描述建模 , ③ 預(yù)測建模 ;

① 模式挖掘 : 如異常模式 , 頻繁模式 ;

② 描述建模 : 如聚類分析 ;

③ 預(yù)測建模 : 如分類預(yù)測 , 趨勢分析等 ;

2 . 模型挖掘與模式挖掘 : 描述建模和預(yù)測建模 可以看做是 模型挖掘 , 與 模式挖掘 對應(yīng) ;

3 . 模式挖掘 : 從數(shù)據(jù)集中尋找特定的模式 , 如異常模式 . 頻繁模式等類型的模式 ;

4 . 頻繁模式 : 在某個數(shù)據(jù)集中 , 頻繁出現(xiàn)的模式 ;

① 模式類型 : 某個數(shù)據(jù) , 子數(shù)據(jù)集 , 項集 , 子序列 , 子圖等結(jié)構(gòu) ;

② 頻繁的項集 : 如交易數(shù)據(jù)中 , 啤酒和尿布經(jīng)常出現(xiàn)在一起 , 牛奶和面包經(jīng)常出現(xiàn)在一起 , 稱為頻繁項集 ;

③ 頻繁的子序列 : 消費者購買電腦后會購買打印機 , 然后購買打印紙 , 電腦打印機打印紙就是頻繁子序列 ;

④ 頻繁的子結(jié)構(gòu) : 在圖結(jié)構(gòu)數(shù)據(jù)中頻繁出現(xiàn)子圖 , 樹結(jié)構(gòu)數(shù)據(jù)中頻繁出現(xiàn)子樹 , 被稱為頻繁子樹 ;

5 . 預(yù)測建模 : 先根據(jù)現(xiàn)有數(shù)據(jù)建立模型 , 然后根據(jù)該模型預(yù)測未來的數(shù)據(jù) ; ( 先建模 , 再預(yù)測 )

① 分類 : 被預(yù)測的數(shù)據(jù)類型是 范疇型的 , 數(shù)據(jù)種類有限 ; 如 : 結(jié)果好 , 壞兩種 ; 病情 : 良好 , 恢復(fù) , 惡化三種 ;

② 回歸 : 被預(yù)測的數(shù)據(jù)類型是 數(shù)值型的 , 如電影票房 , 國家 GDP , 是一個數(shù)值型的 ;

6 . 分類模型與回歸模型 :

① 分類模型 : 又叫分類函數(shù) , 分類器 ;

② 分類模型應(yīng)用 : 信用等級評價 , 治療疾病的診斷等 ;

③ 有監(jiān)督學(xué)習(xí) : 分類過程中 , 使用了訓(xùn)練集進(jìn)行訓(xùn)練學(xué)習(xí) , 這是一個有監(jiān)督的學(xué)習(xí)過程 ;

④ 回歸模型 : 一般用于性能評估 , 概率評估等領(lǐng)域 ;

7 . 描述建模 : 描述數(shù)據(jù)的全局性特征 ;

① 描述建模與預(yù)測建模區(qū)別 : 變量個數(shù)不同 , 預(yù)測建模預(yù)測的變量是 1 個 , 如個人信用等級 , 疾病病情等級等 ; 描述建模描述多個變量 ;

② 描述建模示例 : 聚類分析 ;

8 . 分類與聚類對比 :

① 分類 : 數(shù)據(jù)有 n 個變量 , 已知 n - 1 個變量 ; 目標(biāo)是預(yù)測未知的那個變量的值 ; 預(yù)測建模的本質(zhì)是找到 n - 1 個變量與最后一個變量的模型 ; 根據(jù)一條數(shù)據(jù)的 n - 1 個變量 , 得出其最后一個變量值 ;

② 聚類 : 數(shù)據(jù)有 n 個變量 , 所有的變量都是已知的 ; 如果某幾個數(shù)據(jù)的某幾個變量相似 , 那么將這幾個數(shù)據(jù)分成一組 , 目標(biāo)是分組 ; 根據(jù)多條數(shù)據(jù)的 n 個變量 , 將多條數(shù)據(jù)進(jìn)行分組 ;

四、組件三 : 評分函數(shù)

1 . 參數(shù)不確定 : 參數(shù)不確定的模型 ( 模式 ) 叫做模型 ( 模式 ) 的結(jié)構(gòu) , 即知道結(jié)構(gòu) , 但不知道具體的模型 ( 模式 ) ;

2 . 結(jié)構(gòu)擬合數(shù)據(jù) : 知道模型 ( 模式 ) 結(jié)構(gòu)后 , 需要進(jìn)一步確定結(jié)構(gòu)中的參數(shù)值 , 依據(jù)就是現(xiàn)有的數(shù)據(jù)集 , 這個過程就是將結(jié)構(gòu)擬合到數(shù)據(jù) ;

3 . 評分函數(shù)引入 : 如模型結(jié)構(gòu) $y = a x + b$ 中 , $a$ 和 $b$ 是模型的參數(shù) , 其取值范圍是 $(?∞,+∞)(-\infty , +\infty)$ , 如何評價參數(shù)值選取的是否合適 , 需要給出評價標(biāo)準(zhǔn) , 這個評價標(biāo)準(zhǔn)就是評分函數(shù) ;

4 . 評分函數(shù) :

① 評分函數(shù)概念 : 評分函數(shù)用于評估數(shù)據(jù)集與模型 ( 模式 ) 的擬合程度 , 值越大 ( 越小 ) 越好 ;

② 評分函數(shù)作用 : 為模型 ( 模式 ) 選出最合適的參數(shù)值 ;

③ 常用的評分函數(shù) : 似然函數(shù) , 誤差平方和 , 準(zhǔn)確率 , 支持度 , 可信度等 ;

④ 誤差平方和示例 : 模型結(jié)構(gòu) $y = a x + b$ , 使用模型預(yù)測出的 $y$ 值為 $y^{'}$ , 真實的值為 $y$ , 計算出單條數(shù)據(jù)的誤差平方 $y - y')^2$ , 將所有數(shù)據(jù)的誤差平方相加 , 就是誤差平方和 ; 這個值越小越好 ;

5 . 評分函數(shù)要求 :

① 擬合 : 為模型 ( 模式 ) 選擇的評分函數(shù) , 能很好的擬合當(dāng)前已知的數(shù)據(jù)集 ;

② 避免過擬合 : 評分函數(shù)要避免過擬合 , 對極端數(shù)據(jù)過于敏感 , 這是沒有必要的 ; 如出現(xiàn)極端數(shù)據(jù) , 模型劇烈變化 , 模型需要的是穩(wěn)定 ;

③ 模型簡潔 : 擬合后的模型盡量簡潔 ;

6 . 模型 ( 模式 ) 的特點 :

① 模型 ( 模式 ) 近似性 : 不存在絕對正確的模型 ( 模式 ) , 所有的模型 ( 模式 ) 要求近似即可 ;

② 模型 ( 模式 ) 穩(wěn)定性 : 模型 ( 模式 ) 不隨著數(shù)據(jù)變化而變化 ; 如出現(xiàn)極端數(shù)據(jù) , 模型劇烈變化 ; 模型 ( 模式 ) 要做到對數(shù)據(jù)的微笑變化不敏感 ;

五、組件四 : 搜索和優(yōu)化算法

1 . 評分函數(shù)作用 : 衡量模型 ( 模式 ) 與已知數(shù)據(jù)集的擬合程度 ;

2 . 搜索和優(yōu)化算法作用 : 確定模型 ( 模式 ) 以及其相關(guān)的參數(shù)值 , 該模型 ( 模式 ) 使評分函數(shù) 達(dá)到某個最大 ( 最小 ) 值 ; 本質(zhì)是幫助評分函數(shù)取得最大 ( 最小 ) 值的方法 ;

3 . 搜索問題和優(yōu)化問題 :

① 結(jié)構(gòu)確定求參數(shù) ( 優(yōu)化問題 ) : 模型 ( 模式 ) 結(jié)構(gòu)確定后 , 目的就是為了確定參數(shù)值 , 針對固定的模式 ( 模型 ) 結(jié)構(gòu) , 確定一組參數(shù)值 , 使評分函數(shù)最優(yōu) , 這是優(yōu)化問題 ;

② 結(jié)構(gòu)不確定 ( 搜索問題 ) : 搜索既需要確定模型 ( 模式 ) 的結(jié)構(gòu) , 又需要確定其參數(shù)值 , 這種類型是搜索問題 ;

③ 搜索和優(yōu)化對比 : 模型 ( 模式 ) 結(jié)構(gòu)確定 , 獲取其最優(yōu)參數(shù)是優(yōu)化問題 ; 模型 ( 模式 ) 結(jié)構(gòu)不確定 , 是搜索問題 ;

4 . 常用的優(yōu)化和搜索方法 :

① 優(yōu)化方法 : 爬山算法 , 最陡峭下降 , 期望最大化方法 , 隨機梯度下降 ;

② 搜索方法 : 貪婪搜索 , 分支界定法 , 寬度 / 深度優(yōu)先遍歷方法 ; 其中貪婪搜索方法每一步都是當(dāng)前最優(yōu)結(jié)果 , 全局不一定是最優(yōu)的 ;

六、組件五 : 數(shù)據(jù)管理策略

1 . 傳統(tǒng)數(shù)據(jù)與大數(shù)據(jù) :

① 傳統(tǒng)數(shù)據(jù) : 傳統(tǒng)的數(shù)據(jù)管理方法是將數(shù)據(jù)都放入內(nèi)存中 , 少量數(shù)據(jù) , 直接在內(nèi)存中處理 , 不需要特別關(guān)注數(shù)據(jù)管理技術(shù) ;

② 大數(shù)據(jù) : 數(shù)據(jù)挖掘中的數(shù)據(jù)一般是 GB , TB 甚至 PB 級別的大數(shù)據(jù) , 如果使用傳統(tǒng)的內(nèi)存算法處理這些數(shù)據(jù) , 性能會很低 ;

2 . 海量數(shù)據(jù)管理 : 目的是提高數(shù)據(jù)挖掘算法的性能 , 減少數(shù)據(jù)的訪問次數(shù) , 通過采樣 , 近似 , 索引 , 組織管理數(shù)據(jù) ;

七、數(shù)據(jù)挖掘算法組件化思想應(yīng)用

1. 算法核心體現(xiàn) : 將數(shù)據(jù)挖掘算法分解成一個個核心的組件 , 這些組件是算法核心機制的體現(xiàn) ;

2 . 組件化應(yīng)用 : 當(dāng)面對新需求時 , 不需要整體照搬某個現(xiàn)成的算法 , 應(yīng)該根據(jù)需求 , 選擇不同的組件 , 組成新算法解決當(dāng)前的數(shù)據(jù)挖掘問題 ;

舉例 : 如當(dāng)前的需求 , 模型結(jié)構(gòu)采用哪個類型 , 評分函數(shù)使用哪個 , 搜索優(yōu)化方法選取等 , 拼接組裝成一個新的數(shù)據(jù)挖掘算法 ;

3 . 人和計算機分工 :

① 人工工作 : 模型 ( 模式 ) 結(jié)構(gòu) 和評分函數(shù) , 一般是開發(fā)者來確定 ;

② 計算機工作 : 搜索和優(yōu)化評分函數(shù)過程 , 由計算機實現(xiàn) ;

4 . 算法側(cè)重方向 ( 完備性 / 計算效率 ) :

① 小數(shù)據(jù) : 數(shù)據(jù)集比較小 , 側(cè)重于模型 ( 模式 ) 的能力 , 如描述 , 預(yù)測的準(zhǔn)確性 ;

② 大數(shù)據(jù) : 側(cè)重于計算的效率 , 需要在模型 ( 模式 ) 的能力和計算效率之間找平衡點 , 如算法預(yù)測明天的股票預(yù)測的很準(zhǔn)確 , 但是要運行好幾年 , 沒有任何意義 ;

總結(jié)

以上是生活随笔為你收集整理的【数据挖掘】数据挖掘算法组件化思想 ( 模型或模式结构 | 数据挖掘任务 | 评分函数 | 搜索和优化算法 | 数据管理策略 )的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：【Java 集合】Java 集合的线程安
下一篇：【数据挖掘】数据挖掘算法组件化思想示

编程问答

【数据挖掘】数据挖掘算法 组件化思想 ( 模型或模式结构 | 数据挖掘任务 | 评分函数 | 搜索和优化算法 | 数据管理策略 )

文章目錄

一、 數(shù)據(jù)挖掘算法組件化

二、 組件一 : 模型或模式結(jié)構(gòu)

三、 組件二 : 數(shù)據(jù)挖掘任務(wù)

四、 組件三 : 評分函數(shù)

五、 組件四 : 搜索和優(yōu)化算法

六、 組件五 : 數(shù)據(jù)管理策略

七、 數(shù)據(jù)挖掘算法 組件化思想應(yīng)用