當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习技法-随机森林（Random Forest）

發(fā)布時間：2025/4/14 编程问答 22 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习技法-随机森林（Random Forest）小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

課程地址：https://class.coursera.org/ntumltwo-002/lecture

重要！重要！重要~

一、隨機森林（RF）

1.RF介紹

RF通過Bagging的方式將許多個CART組合在一起，不考慮計算代價，通常樹越多越好。
RF中使用CART沒有經(jīng)過剪枝操作，一般會有比較大的偏差（variance），結(jié)合Bagging的平均效果可以降低CART的偏差。
在訓(xùn)練CART的時候，使用有放回的隨機抽取樣本（bootstraping）、隨機的抽取樣本的特征、甚至將樣本特征通過映射矩陣P投影到隨機的子空間等技術(shù)來增大g(t)的隨機性、多樣性。

2.RF算法結(jié)構(gòu)和優(yōu)勢

二、OOB（Out-Of-Bag）和自驗證（Automatic Validation）

1.RF中使用的有放回的抽樣方式（Bootstrapping）會導(dǎo)致能有些樣本在某次訓(xùn)練中沒有被使用，沒有被用到的樣本稱為OOB(Out-Of-Bag)。

當(dāng)樣本集合很大的時候，如果訓(xùn)練數(shù)據(jù)的大小和樣本集合的大小相同，那么某個樣本沒有被使用的概率大約為1/3，OOB的大小也約為樣本集合的1/3，下面是具體的數(shù)學(xué)描述。

2.RF Validation

RF 并不注重每棵樹的分類效果，實際中也不會用OOB數(shù)據(jù)來驗證g(t)，而是使用OOB數(shù)據(jù)來驗證G。

但同時為了保證驗證數(shù)據(jù)絕對沒有在訓(xùn)練時“偷窺”，使用的G是去掉與測試的OOB相關(guān)的g(t)組成的G-。

最后將所有的OOB測試結(jié)果取平均。林說：實際中Eoob通常都會非常精確。

三、特征選擇(Feature Selection)和排列檢驗(Permutation Test)

在實際中，當(dāng)樣本的特征非常多的時候，有時會希望去掉冗余或者與結(jié)果無關(guān)的特征項，選取相對重要的特征項。
線性模型中，特征項的重要性使用|Wi|來衡量，非線性模型中特征項重要性的衡量一般會比較困難。
RF中使用統(tǒng)計中的工具排列檢驗(Permutation Test)來衡量特征項的重要性。
N個樣本，每個樣本d個維度，要想衡量其中某個特征di的重要，根據(jù)Permutation Test把這N個樣本的di特征項都洗牌打亂，洗牌前后的誤差相減就是該特征項重要性。
RF中通常不在訓(xùn)練時使用Permutation Test，而是在Validation 時打亂OOB的特征項，再評估驗證，獲得特征項的重要性。

四、RF的應(yīng)用

轉(zhuǎn)載于:https://www.cnblogs.com/wxquare/p/5354498.html

《新程序員》：云原生和全面數(shù)字化實踐50位技術(shù)專家共同創(chuàng)作，文字、視頻、音頻交互閱讀

以上是生活随笔為你收集整理的机器学习技法-随机森林（Random Forest）的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。