【数据挖掘】数据挖掘算法 组件化思想 示例分析 ( 组件化思想 | Apriori 算法 | K-means 算法 | ID3 算法 )
文章目錄
- 一、 數據挖掘算法組件化思想
- 二、 Apriori 算法 ( 關聯分析算法 )
- 三、 K-means 算法 ( 聚類分析算法 )
- 四、 ID3 算法 ( 決策樹算法 )
一、 數據挖掘算法組件化思想
0 . 數據挖掘算法的五個標準組件 :
- ① 模型或模式結構 : 決策樹模型 , ( 信念 ) 貝葉斯模型 , 神經網絡模型 等 ;
- ② 數據挖掘任務 : 概念描述 , 關聯分析 , 分類 , 聚類 , 異常檢測 , 趨勢分析 等 ;
- ③ 評分函數 : 誤差平方和 , 最大似然 , 準確率 等 ;
- ④ 搜索和優化方法 : 隨機梯度下降 ;
- ⑤ 數據管理策略 : 數據存儲 , 數據庫相關 ;
1 . 模型或模式結構 : 通過 數據挖掘過程 得到知識 ; 是算法的輸出格式 , 使用 模型 / 模式 將其表達出來, 如 : 線性回歸模型 , 層次聚類模型 , 頻繁序列模式 等 ;
2 . 數據挖掘任務分類 : 根據數據挖掘的目標 , 可以將數據挖掘任務分為以下幾類 : ① 模式挖掘 , ② 描述建模 , ③ 預測建模 ;
① 模式挖掘 : 如 異常模式 , 頻繁模式 ;
② 描述建模 : 如 聚類分析 ;
③ 預測建模 : 如 分類預測 , 趨勢分析等 ;
3 . 評分函數 :
① 評分函數概念 : 評分函數用于評估 數據集 與 模型 ( 模式 ) 的擬合程度 , 值 越大 ( 越小 ) 越好 ;
② 評分函數作用 : 為 模型 ( 模式 ) 選出最合適的參數值 ;
4 . 搜索和優化算法作用 : 確定 模型 ( 模式 ) 以及其相關的 參數值 , 該模型 ( 模式 ) 使評分函數 達到某個最大 ( 最小 ) 值 ; 本質是幫助評分函數取得 最大 ( 最小 ) 值的方法 ;
① 結構確定求參數 ( 優化問題 ) : 模型 ( 模式 ) 結構確定后 , 目的就是為了確定參數值 , 針對固定的 模式 ( 模型 ) 結構 , 確定一組參數值 , 使評分函數最優 , 這是優化問題 ;
② 結構不確定 ( 搜索問題 ) : 搜索 既需要確定 模型 ( 模式 ) 的結構 , 又需要確定其參數值 , 這種類型是搜索問題 ;
5 . 數據管理策略 : 傳統數據與大數據 ;
① 傳統數據 ( 內存管理數據 ) : 傳統的數據管理方法是將數據都放入內存中 , 少量數據 , 直接在內存中處理 , 不需要特別關注數據管理技術 ;
② 大數據 ( 集群管理數據 ) : 數據挖掘中的數據一般是 GB , TB 甚至 PB 級別的大數據 , 如果使用傳統的內存算法處理這些數據 , 性能會很低 ;
二、 Apriori 算法 ( 關聯分析算法 )
1 . 數據挖掘任務 : 關聯模式挖掘 ;
2 . 模型 ( 模式 ) 結構 : 關聯規則 , 類似于鍵值對結構 , 如購買啤酒的很大幾率購買尿布 , 規則如下 : {啤酒} -> {尿布} ;
3 . 搜索空間 : 針對一個 “格” , 這個 “格” 是所有條目的可能組合 ; 如對購買的商品進行關聯分析 , 那么搜索空間就是所有的商品 ;
4 . 搜索空間示例 : 有 4 種商品 A , B , C , D , 購買時有可能產生哪些組合呢 :
如果購買 1 個商品 , 有 C(4 , 1) 種組合 ;
如果購買 2 個商品 , 有 C(4 , 2) 種組合 ;
如果購買 3 個商品 , 有 C(4 , 3) 種組合 ;
如果購買 4 個商品 , 有 C(4 , 4) 種組合 ;
搜索空間就是上面的所有可能組合 ; 其中 C(4 , 2) 就是從 4 個元素的集合中任選 2 個的組合 , 參考離散數學的排列組合公式 ;
5 . 搜索空間概念 : 搜索和優化算法的搜索空間 , 如寬度優先遍歷圖時 , 先要有圖的數據結構 , 這個圖的數據結構就是搜索空間 ;
6 . 評分函數 : 支持度 , 可信度 ;
7 . 搜索和優化算法 : 寬度優先搜索 ;
8 . 數據管理策略 : 內存中管理數據 ;
三、 K-means 算法 ( 聚類分析算法 )
1 . 數據挖掘任務 : 聚類分析 ;
2 . 模型 ( 模式 ) 結構 : 聚類結果 , 將數據分組 , 若干組數據就是聚類分析的結果 ;
3 . 搜索空間 : 找到中心點 , 其它成員向其靠攏 , 以此為依據分組 ;
4 . 評分函數 : 誤差平方和 ;
5 . 搜索優化方法 : 梯度下降方法 ;
6 . 數據管理策略 : 內存管理 ;
四、 ID3 算法 ( 決策樹算法 )
1 . 數據挖掘任務 : 分類 ;
2 . 模型 ( 模式 ) 結構 : 決策樹 , 樹型結構 ;
3 . 搜索空間 : 決策樹的所有可能的組合 ;
4 . 評分函數 : 準確率 , 分類結果越準確越好 ; 信息增益 ;
5 . 搜索優化方法 : 貪婪算法 , 確保當前步驟最優 , 但全局不一定最優 ;
6 . 數據管理策略 : 內存管理 ;
總結
以上是生活随笔為你收集整理的【数据挖掘】数据挖掘算法 组件化思想 示例分析 ( 组件化思想 | Apriori 算法 | K-means 算法 | ID3 算法 )的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【数据挖掘】数据挖掘算法 组件化思想 (
- 下一篇: 【Kotlin】Kotlin 中使用 B