當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

机器学习-常见的损失函数比较

發(fā)布時間：2025/3/21 编程问答 21 豆豆

生活随笔收集整理的這篇文章主要介紹了机器学习-常见的损失函数比较小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

? ? ? ?

在機器學習每一個算法中都會有一個目標函數(shù)，算法的求解過程是通過對這個目標函數(shù)優(yōu)化的過程。在分類或者回歸問題中，通常使用損失函數(shù)（代價函數(shù)）作為其目標函數(shù)。損失函數(shù)用來評價模型的預測值和真實值不一樣的程度，損失函數(shù)越好，通常模型的性能越好，不同的算法使用的損失函數(shù)不一樣。損失函數(shù)可以很好得反映模型與實際數(shù)據(jù)差距的工具，理解損失函數(shù)能夠更好得對后續(xù)優(yōu)化工具（梯度下降等）進行分析與理解。在工業(yè)上很多時候遇到復雜的應用場景問題，其實最難的一關(guān)是如何寫出損失函數(shù)，即自定義損失函數(shù)。

通常提到損失函數(shù)，我們不得不提到代價函數(shù)（Cost Function）及目標函數(shù)（Object Function）。

損失函數(shù)（Loss Function) 直接作用于單個樣本，用來表達樣本的誤差

代價函數(shù)（Cost Function）是整個樣本集的平均誤差，對所有損失函數(shù)值的平均

目標函數(shù)（Object Function）是我們最終要優(yōu)化的函數(shù)，也就是代價函數(shù)+正則化函數(shù)（經(jīng)驗風險+結(jié)構(gòu)風險）

? ? ? ? ? ? ?? ? ? ??

我們給定輸入變量Size，記為 X，擬合目標Price，記為 Y，上面三個圖的函數(shù)依次為。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

這個函數(shù)就稱為損失函數(shù)(loss function)，或者叫代價函數(shù)(cost function)，損失函數(shù)越小，就代表模型擬合的越好。

由于模型開發(fā)過程中輸入輸出是一個訓練集，每一條訓練數(shù)據(jù)都存在一個損失，那么針對于整個訓練集的平均損失，即代價函數(shù)（Cost Function），或者稱作經(jīng)驗風險(empirical risk)，如下：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

模型訓練的過程就是不斷的迭代以保證這個經(jīng)驗風險函數(shù)的最小化。但是從上面的三個坐標圖所示，最后一個圖的經(jīng)驗風險函數(shù)最小了，因為它對歷史的數(shù)據(jù)擬合的最好，但是在實際中，肯定不是最好的，因為它過度學習歷史數(shù)據(jù)，導致它在真正預測時效果會很不好，這種情況稱為過擬合(Over-Fitting)，主要原因是第三個函數(shù)太復雜了，都有四次方了，這就引出了下面的概念，我們不僅要讓經(jīng)驗風險最小化，還要讓結(jié)構(gòu)風險最小化。

這個時候就需要定義了一個函數(shù)，這個函數(shù)專門用來度量模型的復雜度，在機器學習中也叫正則化(Regularization)，常用的有L1，L2范數(shù)，最終的優(yōu)化函數(shù)就變?yōu)?#xff1a;

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

即最優(yōu)化經(jīng)驗風險和結(jié)構(gòu)風險（代價函數(shù)+正則化函數(shù)），而這個函數(shù)就被稱為最終的目標函數(shù)。

上面的例子來分析：最左面的結(jié)構(gòu)風險最小（模型結(jié)構(gòu)最簡單），但是經(jīng)驗風險最大（對歷史數(shù)據(jù)擬合的最差），最右面的經(jīng)驗風險最小（對歷史數(shù)據(jù)擬合的最好），但是結(jié)構(gòu)風險最大（模型結(jié)構(gòu)最復雜），中間的達到了二者的良好平衡，最適合用來預測未知數(shù)據(jù)集。

幾種常見的損失函數(shù)

0-1損失函數(shù)（0-1 Loss Function）

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

平方損失函數(shù)（Quadratic Loss Function）

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

絕對值損失函數(shù)（Absolute loss Function）

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

對數(shù)損失函數(shù)（Logarithmic Loss Function）或者對數(shù)似然損失函數(shù)

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

如果是0-1損失函數(shù)（絕對值損失函數(shù)），感知機就是用的這種損失函數(shù)

如果是平方損失（Square loss），那就是最小二乘法，線性回歸； ?????????????? ?????

如果是對數(shù)損失（log-Loss），那就是邏輯回歸； ??

如果是鉸鏈損失（Hinge Loss），那就是著名的SVM了；

如果是指數(shù)損失（exp-Loss），那就是Boosting了；

1. 0-1損失函數(shù)和絕對值損失函數(shù)
? ? 0-1損失是指，預測值和目標值不相等為1，否則為0：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ?感知機就是用的這種損失函數(shù)。但是由于相等這個條件太過嚴格，因此我們可以放寬條件，即滿足?|Y?f(X)|<T|Y?f(X)|<T?時認為相等。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

? 絕對值損失函數(shù)為：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

2. log對數(shù)損失函數(shù)
? ? 邏輯斯特回歸的損失函數(shù)就是對數(shù)損失函數(shù)，在邏輯斯特回歸的推導中，它假設樣本服從伯努利分布（0-1）分布，然后求得滿足該分布的似然函數(shù)，接著用對數(shù)求極值。邏輯斯特回歸并沒有求對數(shù)似然函數(shù)的最大值，而是把極大化當做一個思想，進而推導它的風險函數(shù)為最小化的負的似然函數(shù)。從損失函數(shù)的角度上，它就成為了log損失函數(shù)。
log損失函數(shù)的標準形式：?
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

? ? 在極大似然估計中，通常都是先取對數(shù)再求導，再找極值點，這樣做是方便計算極大似然估計。損失函數(shù)?是指樣本X在分類Y的情況下，使概率P(Y|X)達到最大值（利用已知的樣本分布，找到最大概率導致這種分布的參數(shù)值）。

3. 平方損失函數(shù)
? ? 最小二乘法是線性回歸的一種方法，它將回歸的問題轉(zhuǎn)化為了凸優(yōu)化的問題。最小二乘法的基本原則是：最優(yōu)擬合曲線應該使得所有點到回歸直線的距離和最小。通常用歐幾里得距離進行距離的度量。平方損失的損失函數(shù)為：? ? ? ? ??
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

4. 指數(shù)損失函數(shù)
? ?AdaBoost就是一指數(shù)損失函數(shù)為損失函數(shù)的。
指數(shù)損失函數(shù)的標準形式：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

5. Hinge損失函數(shù)
? ? Hinge損失函數(shù)和SVM是息息相關(guān)的。在線性支持向量機中，最優(yōu)化問題可以等價于

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

這個式子和如下的式子非常像：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ??

其中l(wèi)(wxi+byi)l(wxi+byi)就是hinge損失函數(shù)，后面相當于L2正則項。
Hinge函數(shù)的標準形式：

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

y是預測值，在-1到+1之間，t為目標值（-1或+1）。其含義為，y的值在-1和+1之間就可以了，并不鼓勵|y|>1|y|>1，即并不鼓勵分類器過度自信，讓某個正確分類的樣本的距離分割線超過1并不會有任何獎勵，從而使分類器可以更專注于整體的分類誤差。

總結(jié)

以上是生活随笔為你收集整理的机器学习-常见的损失函数比较的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： java0926
下一篇：机器学习-梯度下降算法原理及公式推导