随机森林的特征重要性排序
OOB計算
用未被選擇到的學習的數據,做驗證集計算。不必另外做validation了
Feature Selection
如果沒有做好這部分,也是有缺點的:
其中最致命的就是,可能得到的是錯誤的答案,一不小心找到的關系就是關聯,而不是原因。
所以RF中加入了在哪里切一刀。
pemunitation
隨機打亂這個特征的數據,看最后的結果和之前是否一致,這樣保證了數據分布的一致。
如果一致,說明特征影響并不大。
直接刪除呢?并沒辦法很好的決定出是否重要,因為該特征可能對組合有效?改變太多對結果的影響并不好說。
特征重要性排序
在這個特征里面加入一些垃圾,如果和不放的準確率類似,那么就可以說明是重要的。
加什么垃圾呢?垃圾還能選嗎?
一個是把原數據的分布改掉,一個是雜絮的影響。
有放回抽樣bootstrap,這里選擇類似的思想。
pemunitation test:看下原來的表現和現在被污染之后的表現的差距
importance(i)=performance(D)?performance(Dp)importance(i) = performance(D) - performance(D^p)importance(i)=performance(D)?performance(Dp)
這樣的操作需要訓練P次,實際的算法采用了近似的方法,采用OOB的方法計算特征重要度排序。
importance(i)=Eoob(D)?Eoob(Dp)importance(i) = E_{oob}(D) - E_{oob}(D^p)importance(i)=Eoob?(D)?Eoob?(Dp) 如果是對原數據的分布進行改變,依舊沒有什么影響。
但是可進一步轉化為:
importance(i)=Eoob(D)?Eoobp(D)importance(i) = E_{oob}(D) - E_{oob}^p(D)importance(i)=Eoob?(D)?Eoobp?(D),直接在驗證上動手腳,訓練只訓練一次,但是計算OOB的時候對相應的特征,計算相應的OOB分數。
課后:
總結
以上是生活随笔為你收集整理的随机森林的特征重要性排序的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 语法数学一点不会?可以学编程吗QAQ
- 下一篇: 夜深模拟器连接和调试