数据挖掘十大经典算法之——C4.5 算法
生活随笔
收集整理的這篇文章主要介紹了
数据挖掘十大经典算法之——C4.5 算法
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
數據挖掘十大經典算法系列,點擊鏈接直接跳轉:
- 數據挖掘簡介及十大經典算法(大綱索引)
- 1. 數據挖掘十大經典算法之——C4.5 算法
- 2. 數據挖掘十大經典算法之——K-Means 算法
- 3. 數據挖掘十大經典算法之——SVM 算法
- 4. 數據挖掘十大經典算法之——Apriori 算法
- 5. 數據挖掘十大經典算法之——EM 算法
- 6. 數據挖掘十大經典算法之——PageRank 算法
- 7 數據挖掘十大經典算法之——AdaBoost 算法
- 8. 數據挖掘十大經典算法之——KNN 算法
- 9. 數據挖掘十大經典算法之——Naive Bayes 算法
- 10. 數據挖掘十大經典算法之——CART 算法
簡介
決策樹 :采用自頂向下的遞歸方式,把一組無序的數據整理成類似于流程圖的樹結構。每個枝節點表示一個屬性,每個分枝代表屬性的一種選擇,每個葉節點存放選擇之后對應的結果(類標號)。一旦建立好了決策樹,對于一個未給定類標號的樣本元組,其跟蹤一條由根節點到葉節點的路徑,就可以得到一條對應的合取規則。(好理解嗎,不好理解就上圖!)
決策樹的優勢在于不需要任何領域知識或參數設置,適合于探測性的知識發現,故而常用于解決機器學習和數據挖掘中的統計分類問題,簡單講,它的目標就是將具有p維特征的n個樣本分到c個類別中去。
常見的決策樹算法有ID3、C4.5、CART。ID3使用信息熵的概念來做特征選擇,然后通過學習數據來建立決策樹。C4.5算法是對ID3算法的一個擴展,使用信息增益率來選擇屬性。
原理
步驟
特性
1. 優點
- 1、直觀易懂
- 2、分類效率較高
- 3、可以處理非離散數據
- 4、可以處理不完整數據
- 5、通過剪枝調整樹模型
2. 缺點
- 1、不適合處理大量數據。在構造樹的過程中,需要對數據集進行多次順序掃描和排序,因而導致算法的低效。
- 2、對分類敏感
案例
代碼
學術
- 【算法調優】數據挖掘中改進的C4.5決策樹分類算法
應用
憑借其獨特的特點及突出的優勢,C4.5算法已經在金融、醫療等行業得到了成功的應用,在其他多領域也被廣泛接受、研究應用。
- 【金融】決策樹C4.5算法在銀行信貸業務工作中的應用研究
- 【教育】決策樹C4.5算法在學生成績評估中的應用研究
- 【醫療】基于決策樹分類C4.5算法對乳腺腫塊計算機輔助診斷的應用研究
參考資料
總結
以上是生活随笔為你收集整理的数据挖掘十大经典算法之——C4.5 算法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【Git】Git教程
- 下一篇: 数据挖掘十大经典算法之——K-Means