决策树的理解
決策樹的分類速度快
決策樹有個步驟:特征選擇,決策樹生成,和決策樹的修剪。
特許選擇:在于選取對訓(xùn)練數(shù)據(jù)具有分類能力的特征,這樣可以提高決策樹學(xué)習(xí)的效率。如果利用一個特征進(jìn)行分類的結(jié)果與隨機(jī)分類的結(jié)果沒有很大差別,則稱這個特征是沒有分類能力的。經(jīng)驗(yàn)上任掉這些的特征對決策樹學(xué)習(xí)的精度影響。
通常特征選擇的準(zhǔn)則是信息增益,或信息增益比。
在學(xué)習(xí)信息增益的時候,首先是要了解一個概念:熵(entropy)是表示隨機(jī)變量不確定的度量,
信息越少,越是不確定,熵也就會越大。熵的公式為H(x)=-sum(pi*logpi)(i=1,2....n)
熵的取值只依賴于x的分布,并不是x越大,熵就越大,等。
信息增益 g(D,A)特征A對訓(xùn)練集D的信息增益==H(D)-H(D/A)之差。又稱互信息。
信息增益存在一定的問題,往往偏向于選擇取值較多的特征的問題
后人又提出信息增益比: ?gr(D,A)=g(D,A)/Ha(D)意思就是A在特征D上的信息增益比上A的信息熵。
ID3,C4.5算法的生成不再這講
決策樹生成算法遞歸地產(chǎn)生決策樹,直到不能繼續(xù)下去為止。模型復(fù)雜,這樣產(chǎn)生的樹往往對訓(xùn)練數(shù)據(jù)的分類很正確,但是往往會出現(xiàn)過擬合現(xiàn)象,降低模型復(fù)雜度,就是對決策樹進(jìn)行剪枝。
CART回歸樹。
轉(zhuǎn)載于:https://blog.51cto.com/1464490021/1974060
總結(jié)
- 上一篇: 浏览器嗅探
- 下一篇: 沉没成本(要不要买房)