當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

偏差-方差分解

發布時間：2023/12/31 编程问答 37 豆豆

生活随笔收集整理的這篇文章主要介紹了偏差-方差分解小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

最近在看機器學習周志華那本書，受益頗多。我們先拋過來幾個問題，再一一解答。

什么是偏差-方差分解？為什么提出這個概念？
什么是偏差？什么是方差？
什么是偏差-方差窘境？應對措施？

1、偏差-方差分解的提出

我們知道訓練往往是為了得到泛化性能好的模型，前提假設是訓練數據集是實際數據的無偏采樣估計。但實際上這個假設一般不成立，針對這種情況我們會使用訓練集訓練，測試集測試其性能，上篇博文有介紹評估策略。對于模型估計出泛化性能，我們還希望了解它為什么具有這樣的性能。這里所說的偏差-方差分解就是一種解釋模型泛化性能的一種工具。它是對模型的期望泛化錯誤率進行拆解。

2、偏差-方差分解推導

樣本可能出現噪聲，使得收集到的數據樣本中的有的類別與實際真實類別不相符。對測試樣本 x，另 y_d?為 x 在數據集中的標記，y 為真實標記，f(x;D) 為訓練集D上學得模型 f 在 x 上的預測輸出。接下來以回歸任務為例：

模型的期望預測：

樣本數相同的不同訓練集產生的方差：

噪聲：

期望輸出與真實標記的差別稱為偏差：

?通過簡單的多項式展開與合并，模型期望泛化誤差分解如下：

畫紅線部分是分解后由這三部分方差、偏差、噪聲組成。偏差那部分因為和D無關，所以去掉了E_D。畫藍線部分用了數學技巧，并且有兩項等于0約簡。

3、偏差、方差、噪聲

偏差：度量了模型的期望預測和真實結果的偏離程度，刻畫了模型本身的擬合能力。

方差：度量了同樣大小的訓練集的變動所導致的學習性能的變化，即刻畫了數據擾動所造成的影響。

噪聲：表達了當前任務上任何模型所能達到的期望泛化誤差的下界，刻畫了學習問題本身的難度。

4、偏差-方差窘境

為了得到泛化性能好的模型，我們需要使偏差較小，即能充分擬合數據，并且使方差小，使數據擾動產生的影響小。但是偏差和方差在一定程度上是有沖突的，這稱作為偏差-方差窘境。

下圖給出了在模型訓練不足時，擬合能力不夠強，訓練數據的擾動不足以使學習器產生顯著變化，此時偏差主導泛化誤差，此時稱為欠擬合現象。當隨著訓練程度加深，模型的擬合能力增強，訓練數據的擾動慢慢使得方差主導泛化誤差。當訓練充足時，模型的擬合能力非常強，數據輕微變化都能導致模型發生變化，如果過分學習訓練數據的特點，則會發生過擬合。

針對欠擬合，我們提出集成學習的概念并且對于模型可以控制訓練程度，比如神經網絡加多隱層，或者決策樹增加樹深。針對過擬合，我們需要降低模型的復雜度，提出了正則化懲罰項。

轉載于:https://www.cnblogs.com/hithink/p/7372470.html

總結

以上是生活随笔為你收集整理的偏差-方差分解的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇：图像二维离散小波变换
下一篇：数据链路层（2层 DataLink La