机器学习笔记(八)——决策树模型的特征选择
一、引言
決策樹構建過程中的特征選擇是非常重要的一步。特征選擇是決定用哪個特征來劃分特征空間,特征選擇是要選出對訓練數據集具有分類能力的特征,這樣可以提高決策樹的學習效率。如果利用某一個特征進行分類與隨機分類的結果沒有很大的差別,則稱這個特征是沒有分類能力的。這樣的特征可以丟棄。常用的特征選擇的準則是信息增益和信息增益比。
二、信息增益
要了解信息增益,我們要先知道熵與條件熵的定義。
2.1 熵
熵是無序度的度量,在信息論和統計中,熵表示隨機變量不確定性的度量。假設X是一個取有限值的離散型隨機變量,它的概率分布如下:
P(X=xi)=pi,i=1,2,…,n
則隨機變量X的熵定義為:
H(X)=?∑i=1npilogpi
若pi=0,定義0log0=0,從上式中可以看到,熵只依賴于X的分布,而與X的取值沒有關系。熵越大,隨機變量的不確定性就越大。故可以將X的熵記作H(p):
H(p)=?∑i=1npilogpi
2.2 條件熵
設有隨機變量(X,Y),其聯合概率分布為:
條件熵 H(Y|X)表示在已知隨機變量 X的條件下隨機變量Y的不確定性。隨機變量 X給定的條件下隨機變量Y的條件熵 H(Y|X)定義為 X給定條件下Y的條件概率分布的熵對 X的數學期望:
H(Y|X)=∑i=1npiH(Y|X=xi),pi=P(X=xi),i=1,2,…,n
當熵和條件熵中的概率由數據估計得來時,所對應的熵和條件熵稱為經驗熵和經驗條件熵。
2.3 信息增益
信息增益表示得知特征X的信息而使得類Y的信息不確定性減少的程度。
信息增益
特征A對訓練數據集D的信息增益g(D,A),定義為集合D的經驗熵H(D)與特征A給定條件下D的經驗條件熵H(D|A)之差:
信息增益大的特征具有更強的分類能力。
根據信息增益準則進行特征選擇的方法是:對訓練數據集 D,計算其每個特征的信息增益,并比較它們的大小,選擇最大的特征。
三、信息增益比
通過信息增益選取特征的時候,存在偏向于選擇取值較多的特征的問題。使用信息增益比可以糾正這一問題。
信息增益比
特征A對訓練數據集D的信息增益比gR(D,A)定義為其信息增益g(D,A)與訓練數據集D關于特征A的值的熵HA(D)之比,即:
gR(D,A)=g(D,A)HA(D)HA(D)=?∑i=1n|Di||D|log2|Di||D|
n 是特征A取值的個數。
總結
以上是生活随笔為你收集整理的机器学习笔记(八)——决策树模型的特征选择的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 互联网晚报 | 3月8日 星期二 |
- 下一篇: pat天梯赛L1-056. 猜数字