python随机森林特征重要性原理_随机森林进行特征重要性度量的详细说明
特征選擇方法中,有一種方法是利用隨機森林,進行特征的重要性度量,選擇重要性較高的特征。下面對如何計算重要性進行說明。
1 特征重要性?度量
計算某個特征X的重要性時,具體步驟如下:
1)對每一顆決策樹,選擇相應的袋外數據(out of bag,OOB)?計算袋外數據誤差,記為errOOB1.
所謂袋外數據是指,每次建立決策樹時,通過重復抽樣得到一個數據用于訓練?決策樹,這時還有大約1/3的數據沒有被利用,沒有參與決策樹的建立。這部分數據可以用于對決策樹的性能進行評估,計算模型的預測錯誤率,稱為袋外數據誤差。
?這已經經過證明是無偏估計的,所以在隨機森林算法中不需要再進行交叉驗證或者單獨的測試集來獲取測試集誤差的無偏估計。
?2)隨機對袋外數據OOB所有樣本的特征X加入噪聲干擾(可以隨機改變樣本在特征X處的值),再次計算袋外數據誤差,記為errOOB2。
3)?假設森林中有N棵樹,則特征X的重要性=∑(errOOB2-errOOB1)/N。這個數值之所以能夠說明特征的重要性是因為,如果加入隨機噪聲后,袋外數據準確率大幅度下降(即errOOB2上升),說明這個特征對于樣本的預測結果有很大影響,進而說明重要程度比較高。
?2 特征選擇
在特征重要性的基礎上,特征選擇的步驟如下:
1)計算每個特征的重要性,并按降序排序
2)確定要剔除的比例,依據特征重要性剔除相應比例的特征,得到一個新的特征集
3)用新的特征集重復上述過程,直到剩下m個特征(m為提前設定的值)。
4)根據上述過程中得到的各個特征集和特征集對應的袋外誤差率,選擇袋外誤差率最低的特征集
總結
以上是生活随笔為你收集整理的python随机森林特征重要性原理_随机森林进行特征重要性度量的详细说明的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: RAR压缩包如何加密,忘记密码如何找回?
- 下一篇: uni-app插入ucharts(ech