當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

[机器学习] 深入理解目标函数，损失函数和代价函数

發(fā)布時(shí)間：2023/12/14 编程问答 55 豆豆

生活随笔收集整理的這篇文章主要介紹了 [机器学习] 深入理解目标函数，损失函数和代价函数小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

目標(biāo)函數(shù)，損失函數(shù)和代價(jià)函數(shù)

基本概念：

損失函數(shù)：計(jì)算的是一個(gè)樣本的誤差

代價(jià)函數(shù)：是整個(gè)訓(xùn)練集上所有樣本誤差的平均

目標(biāo)函數(shù)：代價(jià)函數(shù) + 正則化項(xiàng)

通常機(jī)器學(xué)習(xí)每一個(gè)算法中都會(huì)有一個(gè)目標(biāo)函數(shù)，算法的求解過(guò)程是通過(guò)對(duì)這個(gè)目標(biāo)函數(shù)優(yōu)化的過(guò)程。在分類或者回歸問題中，通常使用損失函數(shù)（代價(jià)函數(shù)）作為其目標(biāo)函數(shù)。損失函數(shù)用來(lái)評(píng)價(jià)模型的預(yù)測(cè)值和真實(shí)值不一樣的程度，損失函數(shù)越好，通常模型的性能越好。不同的算法使用的損失函數(shù)不一樣。

實(shí)際應(yīng)用：

損失函數(shù)和代價(jià)函數(shù)是同一個(gè)東西，目標(biāo)函數(shù)是一個(gè)與他們相關(guān)但更廣的概念，舉例說(shuō)明：

我們給定x，這三個(gè)函數(shù)都會(huì)輸出一個(gè)f(X)，這個(gè)輸出的f(X)與真實(shí)值Y可能是相同的，也可能是不同的，為了表示我們擬合的好壞，我們就用一個(gè)函數(shù)來(lái)度量擬合的程度。這個(gè)函數(shù)就稱為損失函數(shù)(loss function)，或者叫代價(jià)函數(shù)(cost function)。

損失函數(shù)越小，就代表模型擬合的越好。那是不是我們的目標(biāo)就只是讓loss function越小越好呢？還不是。這個(gè)時(shí)候還有一個(gè)概念叫風(fēng)險(xiǎn)函數(shù)(risk function)。風(fēng)險(xiǎn)函數(shù)是損失函數(shù)的期望，這是由于我們輸入輸出的(X,Y)遵循一個(gè)聯(lián)合分布，但是這個(gè)聯(lián)合分布是未知的，所以無(wú)法計(jì)算。但是我們是有歷史數(shù)據(jù)的，就是我們的訓(xùn)練集，f(X)關(guān)于訓(xùn)練集的平均損失稱作經(jīng)驗(yàn)風(fēng)險(xiǎn)(empirical risk)，所以我們的目標(biāo)就是最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)。

其中，前面的均值函數(shù)表示的是經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)，L代表的是損失函數(shù)，后面的ΦΦ是正則化項(xiàng)（regularizer）或者叫懲罰項(xiàng)（penalty term），它可以是L1，也可以是L2，或者其他的正則函數(shù)。整個(gè)式子表示的意思是找到使目標(biāo)函數(shù)最小時(shí)的θθ值。下面主要列出幾種常見的損失函數(shù)。

過(guò)擬合(over-fitting)。為什么會(huì)造成這種結(jié)果？大白話說(shuō)就是它的函數(shù)太復(fù)雜了，都有四次方了，這就引出了下面的概念，我們不僅要讓經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化，還要讓結(jié)構(gòu)風(fēng)險(xiǎn)最小化。

這個(gè)時(shí)候就定義了一個(gè)函數(shù)J(f)，這個(gè)函數(shù)專門用來(lái)度量模型的復(fù)雜度，在機(jī)器學(xué)習(xí)中也叫正則化(regularization)。常用的有L1， L2范數(shù)。到這一步我們就可以說(shuō)我們最終的優(yōu)化函數(shù)是：?

損失函數(shù)（loss function）是用來(lái)估量你模型的預(yù)測(cè)值f(x)與真實(shí)值Y的不一致程度，它是一個(gè)非負(fù)實(shí)值函數(shù),通常使用L(Y, f(x))來(lái)表示，損失函數(shù)越小，模型的魯棒性就越好。損失函數(shù)是經(jīng)驗(yàn)風(fēng)險(xiǎn)函數(shù)的核心部分，也是結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)重要組成部分。模型的結(jié)構(gòu)風(fēng)險(xiǎn)函數(shù)包括了經(jīng)驗(yàn)風(fēng)險(xiǎn)項(xiàng)和正則項(xiàng)，通常可以表示成如下式子：
?

即最優(yōu)化經(jīng)驗(yàn)風(fēng)險(xiǎn)和結(jié)構(gòu)風(fēng)險(xiǎn)，而這個(gè)函數(shù)就被稱為目標(biāo)函數(shù)

?

常用損失函數(shù)

常見的損失誤差有五種：
1.? 鉸鏈損失（Hinge Loss）：主要用于支持向量機(jī)（SVM）中；
2. 交叉熵?fù)p失（Cross Entropy Loss，Softmax Loss ）：用于Logistic 回歸與Softmax 分類中；
3. 平方損失（Square Loss）：主要是最小二乘法（OLS）中；
4. 指數(shù)損失（Exponential Loss） ：主要用于Adaboost 集成學(xué)習(xí)算法中；
5. 其他損失（如0-1損失，絕對(duì)值損失）

1 平方誤差損失函數(shù)

最小二乘法是線性回歸的一種方法，它將回歸的問題轉(zhuǎn)化為了凸優(yōu)化的問題。最小二乘法的基本原則是：最優(yōu)擬合曲線應(yīng)該使得所有點(diǎn)到回歸直線的距離和最小。通常用歐幾里得距離進(jìn)行距離的度量。平方損失的損失函數(shù)為：

損失函數(shù)：

分類實(shí)例：

優(yōu)點(diǎn)：容易優(yōu)化（一階導(dǎo)數(shù)連續(xù)）

缺點(diǎn)：對(duì)outlier點(diǎn)很敏感（因?yàn)閼土P是指數(shù)增長(zhǎng)的，左圖的兩個(gè)outlier將分類面強(qiáng)行拉到左邊，得不到最優(yōu)的分類面）

2 Logit損失函數(shù)（Logistic 回歸）

邏輯斯特回歸的損失函數(shù)就是對(duì)數(shù)損失函數(shù)，在邏輯斯特回歸的推導(dǎo)中，它假設(shè)樣本服從伯努利分布（0-1）分布，然后求得滿足該分布的似然函數(shù)，接著用對(duì)數(shù)求極值。邏輯斯特回歸并沒有求對(duì)數(shù)似然函數(shù)的最大值，而是把極大化當(dāng)做一個(gè)思想，進(jìn)而推導(dǎo)它的風(fēng)險(xiǎn)函數(shù)為最小化的負(fù)的似然函數(shù)。從損失函數(shù)的角度上，它就成為了log損失函數(shù)。

損失函數(shù)：

優(yōu)點(diǎn)：穩(wěn)定的分類面，嚴(yán)格凸，且二階導(dǎo)數(shù)連續(xù)

3 Hinge損失函數(shù)（SVM）

minJ(w)=1n∑i=1nH(yif(xi,w)),whereH(t)={?t+10t<1t≥0

優(yōu)點(diǎn)：穩(wěn)定的分類面，凸函數(shù)。對(duì)分對(duì)的但又不是很對(duì)的樣本也進(jìn)行懲罰（0-1之間），可以極大化分類間隔。

【問題】為什么不能用回歸的損失函數(shù)來(lái)處理分類的問題

例子：

上例中，紅圈中的樣本是被正確分類了，但是回歸損失函數(shù)還是會(huì)懲罰它們，而按照分類的觀點(diǎn)是不應(yīng)該懲罰的。

分類 != 回歸

特例：1998年LeCun LeNet5 和 2016年的YOLO用回歸解決分類問題，是因?yàn)樗鼈兊奶卣魈貏e強(qiáng)。

4. 指數(shù)損失函數(shù)

AdaBoost就是一指數(shù)損失函數(shù)為損失函數(shù)的。
指數(shù)損失函數(shù)的標(biāo)準(zhǔn)形式：

5 感知機(jī)損失函數(shù)（L1 margin cost）

損失函數(shù)：

minJ(w)=1n∑i=1nH(yif(xi,w)),whereH(t)={?t0t<0t≥0

在t=0處不連續(xù)，所以不可導(dǎo)，但是可以求次梯度(導(dǎo)數(shù))。

優(yōu)點(diǎn)：穩(wěn)定的分類面，次梯度可導(dǎo)

缺點(diǎn)：二階不可導(dǎo)，有時(shí)候不存在唯一解

5 兩種正則化方法

L1正則化假設(shè)了模型的先驗(yàn)概率分布服從拉普拉斯分布；L2正則化假設(shè)了模型的先驗(yàn)概率分布服從高斯分布。

【問題】什么樣的損失函數(shù)是好的損失函數(shù)？

有明確的極大似然/后驗(yàn)概率解釋，如果不滿足，則滿足以下幾條：

minJ(w)=1n∑i=1nH(yif(xi,w))+Ω(w)

H(t)

梯度需要有界，魯棒性保障（反例：AdaBoost）
將L1作為H(t)的漸近線，穩(wěn)定的分類邊界（L1滿足最小誤分樣本數(shù)）
大分類間隔，保障泛化性能
選擇正確的正則化方式（一般默認(rèn)L2）

Reference

1 次導(dǎo)數(shù) 次梯度小結(jié)
http://blog.csdn.net/bitcarmanlee/article/details/51896348

2 集智公開課 https://jizhi.im/course/dl_theory/6

總結(jié)

以上是生活随笔為你收集整理的[机器学习] 深入理解目标函数，损失函数和代价函数的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：定位position
下一篇： ESP32使用freeRTOS的消息队列

编程问答

[机器学习] 深入理解 目标函数，损失函数和代价函数

目標(biāo)函數(shù)，損失函數(shù)和代價(jià)函數(shù)

?

常用損失函數(shù)

1 平方誤差損失函數(shù)

2 Logit損失函數(shù)（Logistic 回歸）

3 Hinge損失函數(shù)（SVM）

4. 指數(shù)損失函數(shù)

5 感知機(jī)損失函數(shù)（L1 margin cost）

5 兩種正則化方法

Reference

總結(jié)

[机器学习] 深入理解目标函数，损失函数和代价函数