【机器学习】 二次损失函数的不足及交叉熵损失softmax详解
二次代價(jià)函數(shù)的不足:
以sigmoid激活函數(shù)為例,由于初始化是隨機(jī)的,假設(shè)目標(biāo)值為0,第一次隨機(jī)初始化使得輸入為0.82,那么還可以,多次迭代之后可以收斂到0.09,但如果第一次隨機(jī)初始化到0.98,由于sigmoid激活函數(shù)的性質(zhì),就會(huì)使得梯度特別小,從而即使迭代次數(shù)特別大,也很難收斂到一個(gè)較好的值。故實(shí)驗(yàn)二的輸出0.2很不理想。
這個(gè)時(shí)候就需要引入交叉熵?fù)p失。當(dāng)然我們可以更換激活函數(shù),但這個(gè)為了引出交叉熵函數(shù)但作用,我們不換激活函數(shù)。
邏輯回歸中使用的就是交叉熵?fù)p失函數(shù)。
?
對(duì)sigmoid函數(shù)再多一嘴,sigmoid函數(shù)的產(chǎn)生是由最大熵原理而來的,可以參考這篇文章https://blog.csdn.net/zynash2/article/details/79261039
但日常使用的理解其實(shí)可以很簡單
具體看文末鏈接,總結(jié)一下就是交叉熵?fù)p失函數(shù)的梯度更新中可以避免對(duì)激活函數(shù)求導(dǎo)(抵消掉了),從而擺脫了激活函數(shù)的限制,實(shí)現(xiàn)了真正的誤差越大,梯度越大。
?
Softmax函數(shù)
在邏輯回歸二分類問題中,我們通常使用sigmoid將輸出映射到[0,1]區(qū)間中以0.5為界限來分類。
LR是一個(gè)傳統(tǒng)的二分類模型,它也可以用于多分類任務(wù),其基本思想是:將多分類任務(wù)拆分成若干個(gè)二分類任務(wù),然后對(duì)每個(gè)二分類任務(wù)訓(xùn)練一個(gè)模型,最后將多個(gè)模型的結(jié)果進(jìn)行集成以獲得最終的分類結(jié)果。常用的策略有One VS One和One VS All。
softmax回歸是LR在多分類的推廣。https://www.cnblogs.com/lianyingteng/p/7784158.html
?
Softmax的求導(dǎo)
softmax的計(jì)算與數(shù)值穩(wěn)定性
?
?
Softmax回歸
多分類LR與Softmax回歸
有了多分類的處理方法,那么我們什么時(shí)候該用多分類LR?什么時(shí)候要用softmax呢?
總的來說,若待分類的類別互斥,我們就使用Softmax方法;若待分類的類別有相交,我們則要選用多分類LR,然后投票表決。
?
?
參考文章:https://blog.csdn.net/u014313009/article/details/51043064
https://www.cnblogs.com/lianyingteng/p/7784158.html
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
以上是生活随笔為你收集整理的【机器学习】 二次损失函数的不足及交叉熵损失softmax详解的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【机器学习基础知识】各类熵总结
- 下一篇: 【机器学习】 ID3,C4.5,CART