随机森林与梯度提升树
提升樹模型:
提升方法實際采用加法模型(即基函數的線形組合)與前向分步算法。以決策樹為基函數的提升方法稱為提升樹。對分類問題決策樹是二叉分類樹。提升樹模型可以表示為決策樹的加法模型:fMx=m=1MT(x;θm),其中T(x;θm)表示決策樹;θm為決策樹的參數;M為樹的個數。
提升樹算法采用前向分步算法。首先確定初始提升樹f0x=0,第m步的模型是fmx=fm-1x+T(x;θm),其中fm-1x為當前模型,通過經驗風險極小化確定下一棵決策樹的參數θm。
回歸模型的提升樹
假設采用平方誤差損失函數時,
對回歸問題的提升樹算法來說,只需簡單擬合當前模型的殘差。
但對一般損失函數而言,往往每一步優化并不那么容易,針對這一問題,Freidman提出了梯度提升算法,這是利用最速下降法的近似方法,其關鍵是利用損失函數的負梯度在當前模型的值。作為回歸問題提升樹算法中的殘差的近似值擬合一個回歸樹。
隨機森林與梯度提升樹
在算法層面,隨機森林通過對數據集進行隨機采樣來構建訓練樣本,認為隨機化有利于模型在測試集上的泛化性能。而梯度提升樹根據訓練數據尋找所有決策樹的最優的線形組合。
隨機森林比梯度提升樹更容易訓練,隨機森林只需要設置一個超參數即可,每個結點上隨機選取的特征數量,大多數情況下設置為log2的特征總數或特征總數的平方根,就可以取得不錯的效果。而梯度提升樹參數則包括了提升樹的數量、深度和學習率等。
隨機森林比梯度提升樹更難過擬合。
梯度提升樹對噪聲異常敏感,從偏差與方差的角度,如果數據是嘈雜的,boosting算法可能會呈現出較高的模型方差,然而在其他情況下,boosting算法往往能夠取得較好的效果。而隨機森林并不基于模型殘差來構建集成模型,往往能夠取得很低的方差。
————————————————
版權聲明:本文為CSDN博主「馬恩尼斯」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接及本聲明。
原文鏈接:https://blog.csdn.net/ma412410029/article/details/84590204
總結
以上是生活随笔為你收集整理的随机森林与梯度提升树的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 找工作的网站(在深圳找工作 用什么网站比
- 下一篇: 喷出岩有哪些岩石(喷出岩)