【算法精讲】集成分类与随机森林
ONE
集成分類
01
什么是集成分類
集成分類是集成學習的一種,先講下集成學習是什么。
所謂集成學習,引用一句諺語“三個臭皮匠頂個諸葛亮”最恰當不過。
集成學習就是將多個弱學習器進行組合,最終形成高性能分類器(強學習器)的方法。
將集成學習放在數據分類中,即叫集成分類。
02
集成分類的方法
集成分類有兩種集成學習方法:Boosting和Bagging。
Bagging(套袋法)是對多個弱分類器獨立學習的方法;
Boosting(提升法)是對多個弱學習器依次進行學習的方法。
二者的區別我們通過下圖來對比了解一下:
Bagging
Step1:假設訓練集中數據個數為n,每次從訓練集中有放回的隨機抽取n個數據,并分別生成各自的分類器(弱分類器)。其中,隨機抽取數據重新整理樣本的過程叫做自助法(又名:Bootstrapping)。
Step2:將得到的弱學習器求平均值,得到強學習器。
Boosting
Step:將訓練集中的數據分別生成學習器(多種方法),將初步得到的眾多學習器分別匹配一個權值1/b(假設一共有b個學習器),由于訓練集已知每個數據的標簽,故將分類效果較好的權值進行減小,將分類效果較差的權值進行增大,這樣對于原來沒有正確分類的樣本有了改進,經過多次迭代后,幾乎所有的樣本都能正確分類了,通過將預測函數加權(另一個權值)求和生成高性能學習器(強學習器)。
注:Boosting中權值涉及到兩類,一個是樣本的權值,一個是預測函數的權值。
Adaboost:
Boosting中用來進行樣本加權的方法即為Adaboost,全稱Adaptive Boosting(自適應加強)。
該方法的主要內容為:誤差率越小,權重就越小;誤差率越大,權重就越大。
集成分類的過程及結果如圖示:
主要區別:
1、樣本選擇
Bagging采用的是Bootstrap隨機有放回抽樣;而Boosting每一輪的訓練集是不變的,改變的只是每一個樣本的權重。
2、樣本權重
Bagging使用的是均勻取樣,每個樣本權重相等;Boosting根據錯誤率調整樣本權重,錯誤率越大的樣本權重越大。
3、預測函數
Bagging所有的預測函數的權重相等;Boosting中誤差越小的預測函數其權重越大。
4、并行計算
Bagging各個預測函數可以并行生成;Boosting各個預測函數必須按順序迭代生成。
TWO
弱分類器
01
剪枝分類器與決策樹分類器
剪枝分類器是弱分類器的一種,將輸入進去n維數據任選其中一維,與之前設定好的閾值進行比較,從而進行分類。
將剪枝分類器進行一層層積累,就得到決策樹分類器。
02
弱分類器與集成學習方法結合
下面是將決策樹與這些算法框架進行結合所得到的新的算法:
1)Bagging + 決策樹 = 隨機森林
2)AdaBoost + 決策樹 = 提升樹
3)Gradient Boosting + 決策樹 = GBDT
03
隨機森林(RF)
下面部分著重講一下隨機森林,這也在師兄所講論文《A double decomposition-based modelling approach to forecast weekly solar radiation》中作為預測的最后一個環節。
決策樹分類器(弱分類器)+Bagging(集成學習方法)=隨機森林
在將得到的多組抽取到的n個數據分別生成弱分類器的時候,應用決策樹分類器。應用處在以下加粗部分:
Bagging:
Step1:假設訓練集中數據個數為n,每次從訓練集中有放回的隨機抽取n個數據,并分別生成各自的分類器(弱分類器)。
Step2:將得到的弱學習器求平均值,得到強學習器。
在剛才提到的太陽能輻射預測值相關那篇論文中,首先將時間序列分為訓練集和測試集,將訓練集用過MEMD進行分解,提取特征值,再通過SVD奇異值分解進行降維,進而保留最相關特征,最后一步通過隨機森林將最相關特征輸入,建立強學習器(預測模型)。
上面提到的涉及RF的這篇論文近幾天將完成精講的編寫。
如有錯誤請多多指正。
往期精彩回顧適合初學者入門人工智能的路線及資料下載中國大學慕課《機器學習》(黃海廣主講)機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載本站qq群955171419,加入微信群請掃碼:總結
以上是生活随笔為你收集整理的【算法精讲】集成分类与随机森林的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 腾讯视频怎么禁止别人登录我的会员
- 下一篇: 搜狐视频怎么开启青少年模式