【数据挖掘】分类任务简介 ( 分类概念 | 分类和预测 | 分类过程 | 训练集 | 测试集 | 数据预处理 | 有监督学习 )
文章目錄
- I . 分類概念
- II . 分類 ( 離散值 ) 和 預(yù)測 ( 連續(xù)值 )
- III . 分類過程
- IV . 分類過程中使用的數(shù)據(jù)集 ( 訓(xùn)練集 | 測試集 | 新數(shù)據(jù) )
- V . 數(shù)據(jù)預(yù)處理
- VI . 分類方法評價
- VII . 分類算法舉例
- VIII . 有監(jiān)督學(xué)習(xí) 和 無監(jiān)督學(xué)習(xí)
I . 分類概念
1 . 數(shù)據(jù)挖掘任務(wù)分類 : 數(shù)據(jù)挖掘任務(wù)分為 模型挖掘 和 模式挖掘 , 其中 模型挖掘 包含 描述建模 和 預(yù)測建模 ;
2 . 分類任務(wù)類型 : 分類 屬于 模型挖掘 任務(wù) , 任務(wù)類型是 預(yù)測建模 類型 ;
3 . 預(yù)測建模 : 根據(jù) 已知的數(shù)據(jù)特征 , 預(yù)測未知的數(shù)據(jù)特征 ; 如 : 數(shù)據(jù)有 n 個變量 , 已知 n - 1 個變量的值 , 預(yù)測未知的那個變量的值 ;
4 . 預(yù)測建模 示例 : 根據(jù)顧客的 年齡 , 收入 , 是否是學(xué)生 , 信用等級 , 預(yù)測該顧客是否會購買電腦 ;
II . 分類 ( 離散值 ) 和 預(yù)測 ( 連續(xù)值 )
1 . 分類 ( 離散值 ) : 先構(gòu)造出模型 , 然后使用該模型對未知樣本進行 類別判定 ; 類別是固定的幾個類 ;
分類使用場景 : 預(yù)測 離散數(shù)據(jù) , 如 : 信用等級評估 , 疾病診斷 ;
2 . 預(yù)測 ( 回歸 | 連續(xù)值 ) : 先構(gòu)造出模型 , 然后使用該模型對未知樣本的 某個值進行估計 ; 這個值是一個數(shù)值 ;
預(yù)測使用場景 : 預(yù)測 連續(xù)的數(shù)據(jù) , 如電影票房 , 國家 GDP 等 ;
III . 分類過程
1 . 分類過程 : 分類分為 建立模型階段 和 使用模型階段 ;
2 . 建立模型 ( 學(xué)習(xí) ) : 又叫學(xué)習(xí)階段 , 訓(xùn)練階段 ;
① 訓(xùn)練集 : 學(xué)習(xí)訓(xùn)練階段使用的模型叫訓(xùn)練集 ;
② 模型表示形式 : 分類規(guī)則 , 決策樹 , 數(shù)學(xué)公式 等 ;
3 . 使用模型 : 先測試模型 , 測試通過開始使用 ;
① 測試模型 : 測試模型的準確性 , 如果認可該準確性 , 就使用該模型對未知新數(shù)據(jù)進行分類 ;
② 測試集 : 使用 模型 對測試集數(shù)據(jù)進行分類 , 將分類結(jié)果與真實結(jié)果進行對比 ;
③ 準確率 : 使用模式分類的結(jié)果 , 與測試集真實數(shù)據(jù) , 分類正確的比例是 準確率 ;
④ 測試集要求 : 測試集 與 訓(xùn)練集 不相關(guān) ;
IV . 分類過程中使用的數(shù)據(jù)集 ( 訓(xùn)練集 | 測試集 | 新數(shù)據(jù) )
1 . 分類過程中使用的數(shù)據(jù)集 :
① 訓(xùn)練集 : 使用訓(xùn)練集訓(xùn)練 模型 ;
② 測試集 : 使用測試機驗證 模型 的準確性 , 如果準確就使用該模型 , 如果不準確繼續(xù)訓(xùn)練 ;
③ 新數(shù)據(jù) : 使用模型 預(yù)測 新數(shù)據(jù)的未知字段的分類 ;
④ 相同點 : 三種數(shù)據(jù)集的格式是一樣的 ;
2 . 有監(jiān)督學(xué)習(xí) : 分類屬于有監(jiān)督的學(xué)習(xí) , 有監(jiān)督學(xué)習(xí)必須有 訓(xùn)練模型階段 和 測試模型階段 , 最后才能使用模型 ;
3 . 已知數(shù)據(jù) : 通常 訓(xùn)練集 與 測試集集 是一體的 , 本質(zhì)是完全相同的 , 將數(shù)據(jù)隨機分為 訓(xùn)練集 和 測試集 ;
V . 數(shù)據(jù)預(yù)處理
1 . 數(shù)據(jù)清洗 : 預(yù)處理數(shù)據(jù) ;
① 刪除 : 刪除數(shù)據(jù)的噪音 ;
② 修補 : 修補缺失數(shù)據(jù) , 使用常用值 , 平均值 , 統(tǒng)計學(xué)中的最大概率出現(xiàn)的值替代缺失數(shù)據(jù) ;
2 . 相關(guān)分析 : 分類 類型的數(shù)據(jù)挖掘任務(wù)中 , 該步驟叫做 特征選擇 ;
① 主要工作 : 篩選 模型 中使用的 屬性 ( 特征值 ) , 屏蔽 冗余 或 不相關(guān) 的 屬性 ( 特征值 ) ; 如 信用等級與人的星座無關(guān) , 此類特征值就可以在模型中進行刪除 ;
② 分類工作 : 數(shù)據(jù)有 nnn 個 屬性 ( 特征 ) , 已知 n?1n-1n?1 個特征值 , 預(yù)測未知的那個特征值 ;
③ 模型復(fù)雜程度 : 選擇使用哪些 屬性 ( 特征 ) 值 進行預(yù)測 , 關(guān)系到模型的復(fù)雜程度 , 模型中使用的特征值個數(shù)越多 , 越復(fù)雜 ;
④ 特征工程 : 這里引入 特征工程 概念 , 特征處理的工作就是特征工程的核心 ;
3 . 數(shù)據(jù)轉(zhuǎn)換 :
① 概括數(shù)據(jù) : 將連續(xù)值離散化 , 如 100 分滿分 , 低于 60 不及格 , 高于 60 及格 , 這樣就將 0 ~ 100 的數(shù)值分成 及格 與 不及格兩個特征 ;
② 數(shù)據(jù)規(guī)范 : 將數(shù)據(jù)規(guī)范化 , 規(guī)范單位 , 如身高有的使用 cm , 有的使用 m , 有的使用英尺 , 將數(shù)據(jù)單位都設(shè)置成統(tǒng)一單位 ;
VI . 分類方法評價
分類方法評價標準 :
① 準確性 : 保證性能的前提下 , 越準確越好 ;
② 速度 : 構(gòu)造模型的速度 ( 訓(xùn)練 和 測試 時間 ) , 使用模型的速度 ;
③ 容錯性 ( 魯棒性 ) : 能處理數(shù)據(jù)中的噪音 , 和數(shù)據(jù)缺失等情況 ;
④ 伸縮性 : 內(nèi)存中數(shù)據(jù)可以使用 , 磁盤中的數(shù)據(jù)也可以使用 ;
⑤ 交互性 : 模型解釋性好 , 易于理解 ; 如深度學(xué)習(xí)中的神經(jīng)元網(wǎng)絡(luò)不易理解 , 被人稱為煉金術(shù) ;
VII . 分類算法舉例
分類算法示例 :
① 決策樹分類
② 貝葉斯分類
③ 支持向量機
④ 神經(jīng)元網(wǎng)絡(luò)
⑤ K 近鄰分類
VIII . 有監(jiān)督學(xué)習(xí) 和 無監(jiān)督學(xué)習(xí)
1 . 有監(jiān)督學(xué)習(xí) : 明確地分為兩個階段 ; 訓(xùn)練模型階段 , 使用訓(xùn)練集數(shù)據(jù) ; 使用模型階段 , 預(yù)測新數(shù)據(jù)某個特征 ;
有監(jiān)督學(xué)習(xí)舉例 : 分類過程 是典型的有監(jiān)督學(xué)習(xí)過程 ;
2 . 無監(jiān)督學(xué)習(xí) : 沒有訓(xùn)練階段 和 預(yù)測階段 的明顯劃分 ;
無監(jiān)督學(xué)習(xí)舉例 : 聚類分析 ;
3 . 半監(jiān)督學(xué)習(xí) : 介于 有監(jiān)督學(xué)習(xí) 和 無監(jiān)督學(xué)習(xí)之間 ;
《新程序員》:云原生和全面數(shù)字化實踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的【数据挖掘】分类任务简介 ( 分类概念 | 分类和预测 | 分类过程 | 训练集 | 测试集 | 数据预处理 | 有监督学习 )的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Kotlin】Kotlin 中使用 B
- 下一篇: 【JetPack】数据绑定 DataBi