交叉熵函数
交叉熵函數(shù)
第一章 機(jī)器學(xué)習(xí)是什么
第二章 深度學(xué)習(xí)是什么
第三章 前饋神經(jīng)網(wǎng)絡(luò)
第四章 卷積神經(jīng)網(wǎng)絡(luò)
第五章 交叉熵函數(shù)
文章目錄
- 交叉熵函數(shù)
- 信息熵
- 交叉熵
信息熵
說到交叉嫡就要說一下“信息嫡”這個概念,信息嫡如果要用平民語言說得盡可能直白的話,我覺得可以說成是信息的雜亂程度或者意外程度的量化描述。
信息熵的公式如下:
解釋:前面的x我們當(dāng)成一個向量吧,就是若干個x把每個可能項產(chǎn)生的概率乘以該可能性的信息量,然后各項做加和。
為了說得清信息熵還是具體舉例吧,比如中國乒乓球隊和巴西乒乓球隊比賽。
假設(shè)中國乒乓球隊和巴西乒乓球隊歷史交手共64次,其中中國隊獲勝63次,63/64是賽前大家普遍認(rèn)可的中國隊獲勝的概率——這個是先驗概率。那么這次“中國隊獲勝”這個消息的信息量有多大呢?
“巴西隊獲勝”的信息量有多大呢?
所以,中國乒乓球隊和巴西乒乓球隊比賽的結(jié)果,這一信息的信息嫡約為:
交叉熵
如果信息嫡的概念理解沒有問題的話,那么交叉嫡的概念也就會好理解一些了,先給表達(dá)式。
從損失函數(shù)(交叉嫡損失函數(shù))的形式上來看,會不會覺得比較眼熟?是的,看上去好像在做邏輯回歸,因為對于每一種分類都是伯努利分布,要么“是”要么“不是”,當(dāng)然對于它們中每一個來說表達(dá)形式會看著多少有些同源。
對于最后一層SOFTMAX的每一個輸出節(jié)點來說,都是上面這個樣子,有多個x輸入的向量,有節(jié)點上的w矩陣跟它做內(nèi)積,加上偏置b,再把結(jié)果通過Sigmoid函數(shù)輸出一個0到1之間的概率值。
Sigmoid函數(shù)是一個很有趣的函數(shù),當(dāng)把它對它的自變量z求導(dǎo)的時候會得到自身o(z)和1-o(z)的乘積。不要覺得奇怪,它的導(dǎo)數(shù)就是這個結(jié)果。然后一步一步做純數(shù)學(xué)推導(dǎo):
根據(jù)鏈?zhǔn)椒▌t,我們還是能得到這樣一個偏導(dǎo)值。偏導(dǎo)數(shù)能幫到我們的就是求出在凸優(yōu)化時每個待定系數(shù)在更新中所移動的大小。我們只說一點好了,請注意這個地方我們?nèi)绾卫斫?
在整個訓(xùn)練進(jìn)行的過程中,我們是把樣本向量和標(biāo)簽向量同時放人模型的。在放入的時候自然樣本沒有特殊理由的情況下都是會將期望的分類維度設(shè)置成1,其余的維度設(shè)置成0,用這樣的形式來標(biāo)記分類標(biāo)簽向量。也就是上面說的這個yi。而在擬合的過程中會有這樣一個事實,那就是說當(dāng)y為0的時候,由于y, In a失效而( 1-yi) ln ( 1-a)這一項是有效的,所以ln ( 1-a)的大小就是損失值了。這個就很好理解了,本來不應(yīng)該分成這一類,但是1-a卻成為了分作這一類的概率,ln(1-a)是負(fù)數(shù)。
從函數(shù)yi-ln ( 1-x)的圖像上也能看出來,α越接近1產(chǎn)生的負(fù)值的絕對值就越大,也可以解釋成擬合所產(chǎn)生的分類概率與實際應(yīng)該產(chǎn)生的分類概率分歧越大。反之,a越接近0則產(chǎn)生比較小損失值越小。同理,當(dāng)yi為1的時候,( 1-y) ln ( 1-a)失效而yiIn a有效,此時產(chǎn)生很類似的情況,α越接近1則損失值越小,a越接近0損失值越大。E里面所包括的內(nèi)容加和一定是一個負(fù)數(shù),而在前面加了-二后則會變成正數(shù),正數(shù)越大損失值也就越大。
在整個訓(xùn)練的過程中,實際在每個樣本進(jìn)行擬合的時候都會產(chǎn)生這樣一個效果,那就是諸如這樣一對一對的目標(biāo)分類向量值和擬合分類向量值之間的差值:
看到這里大概知道“交叉嫡”是什么概念了吧?就是一種當(dāng)前擬合出來的模型分類所產(chǎn)生的信息嫡和這種“客觀上”的信息嫡的差距。
首先,在你創(chuàng)造的這個“小世界”(就是這個網(wǎng)絡(luò))里,比如你放進(jìn)去10000張圖片做訓(xùn)練,分成4類,不論這四類是比較平均的還是某一類比較多,從統(tǒng)計上都會產(chǎn)生一個信息嫡,也就是隨便來一張圖片即便不通過這個網(wǎng)絡(luò)也會有一個先驗概率產(chǎn)生。這個概率就是基于這些圖片“天然”分布的一個統(tǒng)計比例,這就和我們在不知道任何其他前提的情況下看到有個骰子扔到空中,當(dāng)它落地的時候擲到1的概率是;或者在一個蘋果手機(jī)市場占有率為70%的地區(qū),隨便在街上找到一個人問他的手機(jī)是什么品牌,回答為蘋果手機(jī)的概率為70%是完全一樣的情況。根據(jù)這種針對“客觀世界”的統(tǒng)計產(chǎn)生的分類的“信息嫡”就是分類目標(biāo)的嫡,而在擬合過程中產(chǎn)生的嫡實際上跟這個嫡值是有差距的,這個差距就是在使用交叉嫡損失函數(shù)的情況下所定義的嫡的差距,那么優(yōu)化的方向就是向著調(diào)整待定系數(shù)減小“嫡差”的方向去運動?,F(xiàn)在好理解了吧?而且通過觀察你也可以發(fā)現(xiàn)這個差值越大導(dǎo)數(shù)也就越大,學(xué)習(xí)的效率也就越高,這當(dāng)然也是一個非常好的性質(zhì)。通過訓(xùn)練不斷調(diào)整眾多卷積核中w的大小,來決定一個合適的特征提取的量化值,這就是卷積網(wǎng)絡(luò)訓(xùn)練的基本原理了。
ending!!!
本文參考文獻(xiàn):《白話講深度學(xué)習(xí)與Tensorflow》高揚、衛(wèi)崢 著
總結(jié)
- 上一篇: Java程序设计编程题目
- 下一篇: 彻底理解DDS(信号发生器)的fpga实