當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习：决策树及ID3,C4.5,CART算法描述

發(fā)布時間：2024/9/15 编程问答 31 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习：决策树及ID3,C4.5,CART算法描述小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

文章目錄

概念理解
- 熵:
- 條件熵:
- 信息增益，互信息:
- 信息增益比
- 基尼指數(shù)
ID3算法描述
C4.5算法描述
CART (Classification and Regression Tree)算法描述:
三種算法優(yōu)勢及劣勢：
- ID3：
- C4.5：
- CART:

概念理解

熵:

條件熵:

$H (y ∣ A)$ : A 是特征，y是目標(biāo)或者分類，“條件”可以理解為 A對y的限制，假如：feature A有m個featureValue, $H (y ∣ A)$ 就是在取feature A有m個featureValue的值下，y的不確定和。 $H (y ∣ A)$ 理解為y被A限制后的不確定性，A對y分類的影響

信息增益，互信息:

$g (y, A) = H (y) ? H (y ∣ A)$
可以看成條件熵的相反，這個可以看成A對y分類的影響，簡單理解就是y在引入A之后的不確定度。

假如以 $g (y, A)$ 作為y分類的標(biāo)準(zhǔn)，那么y就選擇 $g (y, A)$ 的feature A, 那么這種策略就傾向于選擇featureValue個數(shù)m越多的feature A，直觀一點就是分類越多，y的確定性就會增加。

信息增益比

假如一直選擇featureValue個數(shù)m越多的feature ，決策樹就會成為一個又胖又矮的樹，不管在哪里矮胖肯定不受歡迎，我們喜歡高瘦的，但是又不能太高，我們需要一個具有美感的 $x$ 叉樹。
在此引入了對m的懲罰，信息增益比:
$g_R(y,A) = g(y,A) / IV(A)$
$I V (A)$ 為y關(guān)于A的熵，類似于交叉熵，和m有關(guān)。

基尼指數(shù)

可以看出基尼指數(shù)是和熵定義類似的，基尼指數(shù)越小，y的不確定度越小。

ID3算法描述

使用信息增益為劃分依據(jù)

C4.5算法描述

以信息增益比為劃分依據(jù)，修改第4步

CART (Classification and Regression Tree)算法描述:

以基尼指數(shù)為劃分依據(jù)

三種算法優(yōu)勢及劣勢：

ID3：

優(yōu)點： ID3中選擇熵減少程度最大的特征來劃分數(shù)據(jù)，也就是“最大信息熵增益”原則，是一種貪心策略，策略簡單，一般情況下都是有效果的。缺點：從劃分的策略信息增益定義，這種策略總是選擇特征值個數(shù)m多的特征來劃分，導(dǎo)致決策樹又矮又胖。處理離散型的數(shù)據(jù)會出現(xiàn)上述問題，處理連續(xù)性不會出現(xiàn)上述問題，處理混合型數(shù)據(jù)會傾向于選擇離散型特征劃分問題改進：C4.5

C4.5：

優(yōu)點：針對ID3總是選擇特征值個數(shù)m多的特征，引入信息增益比來懲罰m，缺點：信息增益比=互信息/y對feature的熵，C4.5會選擇使“y對feature的熵”最小的策略，就是選擇m小的劃分，假如二分的話，，就會分成很不均勻的兩份，然后這個二叉樹會非常深，又瘦又高，這種樹中看不中用，泛化能力非常差，就是我們常說的過擬合。改進：劃分feature選擇策略，選出互信息比平均互信息高的feature（基本上m就不會少），然后在這些features里選擇信息增益比最高的feature，這是一種啟發(fā)式策略，很直接但是又快又有效。

CART:

優(yōu)點： CART是一棵二叉樹，采用二元切分法，每次把數(shù)據(jù)切成兩份，分別進入左子樹、右子樹。相比ID3和C4.5，CART應(yīng)用要多一些，既可以用于分類也可以用于回歸。缺點：等我發(fā)現(xiàn)了再補充。

總結(jié)

以上是生活随笔為你收集整理的机器学习：决策树及ID3,C4.5,CART算法描述的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇：机器学习：朴素贝叶斯分类器，决策函数向量
下一篇：机器学习：信息熵，基尼系数，条件熵，条件