线性-LR-softmax傻傻分不清楚
softmax
對于分類網(wǎng)絡(luò),最后一層往往是全連接層,如果是N分類,那么最終的全連接層有N個(gè)結(jié)點(diǎn)。很顯然,每個(gè)節(jié)點(diǎn)對應(yīng)一個(gè)類,該節(jié)點(diǎn)的權(quán)重越大,說明網(wǎng)絡(luò)越傾向于認(rèn)為輸入樣本屬于該類。這其實(shí)就是Softmax的思想:古典概率模型。Softmax的不同之處在于將基本事件用e的冪表示,這樣的好處是便于反向傳播中的求導(dǎo)。我們來看softmax的概率計(jì)算:
有了概率就可以求交叉熵:,這里的是獨(dú)熱編碼,所以Loss中的求和符合可以去掉,得到
驚喜地發(fā)現(xiàn),只要得到前向傳播的結(jié)果,結(jié)果減1就得到反向傳播的梯度。緣,妙不可言。
更嚴(yán)格的證明,其實(shí)要區(qū)分i與j是否相等,因?yàn)樵谌B接中是交叉連接的,反向傳播也會(huì)交叉?zhèn)鞑ァD敲?#xff0c;如果輸出是[0.1,0.3,0.6],對第二類求偏導(dǎo),得到[0.1,0.7,0.6]。可以看到,當(dāng)節(jié)點(diǎn)與標(biāo)簽不同時(shí),輸出直接作為loss的導(dǎo)數(shù),當(dāng)節(jié)點(diǎn)與標(biāo)簽相同時(shí),會(huì)將1-輸出作為梯度。通過這樣的反向傳播,就會(huì)造成輸出越來越集中在正確的節(jié)點(diǎn)上,且越來越逼近1.https://www.cnblogs.com/alexanderkun/p/8098781.html
Sigmoid
Softmax其實(shí)是一個(gè)激活函數(shù),而提到激活函數(shù),就不得不提Sigmoid,他們兩個(gè)有什么關(guān)系呢?直接說結(jié)論:二分類時(shí),二者可以看作是等價(jià)的。
可以看到,二者的輸出形式都是一樣的,求導(dǎo)的特點(diǎn)也是一樣的。sigmoid其實(shí)可以看作是softmax在類別N等于2時(shí)的一個(gè)特例,因?yàn)槟M神經(jīng)元的受刺激與受抑制,這時(shí)二分類問題,所以sigmoid不僅用于分類網(wǎng)絡(luò)的最后一層,也常用于隱藏層中的神經(jīng)元連接處。如果說有什么不同點(diǎn)的話那就是網(wǎng)絡(luò)結(jié)構(gòu)在實(shí)現(xiàn)上有所不同:同樣是二分類,sigmoid只要對一個(gè)featuremap進(jìn)行計(jì)算則可直接得到它屬于正樣本的概率;而softmax需要兩個(gè)節(jié)點(diǎn),在兩個(gè)channel上分別求e的冪再套用softmax的概率公式,分別得到正負(fù)樣本的概率。
具體使用時(shí)要看情況:如果是多分類任務(wù),且類別間是互斥的,使用softmax。softmax的好處就是可以任意調(diào)整分類類別。如果一個(gè)樣本可能同時(shí)屬于多個(gè)類別,則使用sigmoid,此時(shí)sigmoid對各個(gè)類別輸出的概率之和不為1。https://www.cnblogs.com/jiashun/p/doubles.html
說一下sigmoid。它的作用首先是將之前的線性輸出轉(zhuǎn)換為“分類”,最簡單的分類是設(shè)定閾值的分類,對應(yīng)的激活函數(shù)表現(xiàn)為分段函數(shù),這樣不利于求導(dǎo)。所以sigmoid首先可以看作是對階梯函數(shù)的近似,同時(shí)獲得了連續(xù)可微,可得到概率的特性。更進(jìn)一步地,sigmoid還使得分類器獲得了非線性的特性。那么sigmoid這個(gè)函數(shù)的表達(dá)式到底是怎樣確立的呢?這就要引入“對數(shù)幾率”的概念。對于線性模型,不再用線性模型直接表示類別輸出,而是表示類別概率的比值的對數(shù)(只能盡量去理解,比值是為了體現(xiàn)概率,對數(shù)是為了引入非線性),那么可以得到,從而解得
LR(Logistic?Regression)
前面提到Sigmoid對一個(gè)單通道輸出就可以得到屬于正樣本的概率,這個(gè)概率實(shí)際上就是樣本1的后驗(yàn)概率。而使用sigmoid做分類其實(shí)就是邏輯回歸。這里就從后驗(yàn)概率的角度討論一下邏輯回歸的代價(jià)函數(shù)和反向傳播。會(huì)發(fā)現(xiàn)和交叉熵的角度反向傳播softmax也是等價(jià)的。https://blog.csdn.net/zjuPeco/article/details/77165974
假設(shè)數(shù)據(jù)服從伯努利分布,那么。寫成一部形式:,是所求參數(shù),現(xiàn)在我們認(rèn)為它是一個(gè)確定的但未知的(區(qū)別于貝葉斯學(xué)派認(rèn)為它是一個(gè)分布)。現(xiàn)在我們有n個(gè)訓(xùn)練樣本,認(rèn)為他們服從獨(dú)立同分布,那么就可以使用最大似然估計(jì):對于正確的,聯(lián)合分布概率取最大值(因?yàn)楠?dú)立同分布,所以是后驗(yàn)概率的乘積)
由此得到代價(jià)函數(shù),再進(jìn)行求導(dǎo)即可以進(jìn)行梯度更新https://zhuanlan.zhihu.com/p/103459570
指數(shù)分布族
https://www.zhihu.com/question/29435973
總結(jié)
以上是生活随笔為你收集整理的线性-LR-softmax傻傻分不清楚的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。