决策树和随机森林
決策樹:
建立決策樹的關鍵,是在當前狀態下選擇那個屬性作為分類依據。根據不同的目標函數,建立決策樹主要有三個算法
ID3(Iterative Dichotomiser)
C4.5
CART(Classification And Regression Tree)
信息增益:當熵和條件熵中的概率由數據統計得到時,所對應的熵和條件熵分別稱為經驗熵和經驗條件熵
信息增益表示得知特征A 的信息而使類X的信息的不確定性減少的程度
定義:特征A對訓練數據集D的信息增益 g(D,A),定義為集合D的經驗熵H(D)與特征A給定條件下D的經驗條件熵H(D|A)之差,即:
g(D,A)=H(D)-H(D|A), 顯然,這即為訓練數據集D和特征A的互信息
樹模型特征選擇除了信息增益、信息增益率、基尼系數(分類)? ? ?mse(回歸)
先算根節點,算出每個特征的
例如:一個數據有4個屬性( f1/f2/f3/f4)
以 f1為例(f1樣本共有14條數據)
f1:? ? ? ? H(Y|f1) = ?
gain(Y,f1) = H(Y)-H(Y|f1)
? ? ? ? ? ? ?f1 = sunny(5)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Y? ? ? ? ?Yes? ? ? ? No
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? N? ? ? ? ? ? 2? ? ? ? ? 3
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?p? ? ? ? ? ?0.4? ? ? ?0.6
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 5/14 * H(Y|f1=sunny)=?
? ? ? ? ? ? ? f1 = overcast(4):
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?4/14*H(Y|f1=overcast)=?
? ? ? ? ? ? ? ?f1 = rainy(5)
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?5/14*H(Y|f1=rainy)=?
f2:? ? ? ?H(Y|f2)=?
gain(Y,f2) = H(Y)-H(Y|f2)
f3:? ? ? ?H(Y|f3) = ?
gain(Y,f3) = H(Y)-H(Y|f3)
選擇信息增益最大的最為分類結點屬性 信息增益(ID3)
信息增息率
? ? ? ? ? ? ? ? ? ? ? Y|f1? ? ? ? Sunny? ? ? Overcast? ? Rainy
? ? ? ? ? ? ? ? ? ? ? ? N? ? ? ? ? ? ? 5? ? ? ? ? ? ? ? ? 4? ? ? ? ? ? ? ?4
? ? ? ? ? ? ? ? ? ? ? ? P? ? ? ? ? ? ? 5/14? ? ? ? ? ? ? 4/14? ? ? ? 4/14
f1信息熵?H(f1) =? 5/14 * log5 +....
信息增益率:gain(Y|f1)/H(f1)? ?(C4.5)
Gini系數:(CART)
? ? ? X? ? 1? ? ?2? ? ? ...........? ? k
? ? ? P? ? ?p1? ?p2? ? ........? ? ? pk
gini(p) = p1(1-p1) + p2(1-p2) +........pk(1-pk)
gini(Y)? ? ?根的基尼系數
gini(Y) - gini(Y|f1)? ?f1基尼系數
gini(Y) - gini(Y|f2)
gini(Y) - gini(Y|f3)
gini(Y) - gini(Y|f4)? ?...
選最大的作為分裂結點特征
防止過擬合
Set:? (x1,y1),(x2,y2).......(xn,yn)
Buffer(選擇有放回的抽樣 緩沖區):隨機選擇樣本(x5,y5),(x3,y3),(x10,y10)....
重復n次,得到決策樹DT1
再次重復這個過程得到DT2,DT3,DT4......得到隨機森林(分類結果:決策樹少數服從多數)
Isolation Forest 計算異常點數據
?
總結
- 上一篇: 传统图像理解
- 下一篇: Bag of Words(BOW)模型