两概率分布交叉熵的最小值是多少?
?PaperWeekly 原創(chuàng) ·?作者 | 孫裕道
學(xué)校 | 北京郵電大學(xué)博士生
研究方向 | GAN圖像生成、情緒對(duì)抗樣本生成
引言
交叉熵(Cross Entropy)是香農(nóng)信息論中一個(gè)非常重要的概念,它在深度學(xué)習(xí)和機(jī)器學(xué)習(xí)中常常被用作損失函數(shù),給定真實(shí)類標(biāo)簽分布 , 為訓(xùn)練過程中模型的類別預(yù)測(cè)概率分布,交叉熵?fù)p失函數(shù)可以用于衡量 和 的相似性,從而提供了優(yōu)化神經(jīng)網(wǎng)絡(luò)參數(shù)的梯度。本文會(huì)通過回答以下四個(gè)提問更全面更深入地去了解交叉熵。
問題1:為什么交叉熵可以用于度量?jī)蓚€(gè)概率分布之間的差異性?
問題2:兩個(gè)概率分布交叉熵的最小值是多少?
問題3:等概率分布的交叉熵與向量維數(shù)有什么關(guān)系?
問題4:什么實(shí)際應(yīng)用場(chǎng)景下交叉熵作為損失函數(shù)最小值不為 0?
相對(duì)熵(KL 散度)與交叉熵
要回答清楚引言中的第一個(gè)問題,首先需要理清楚相對(duì)熵(KL 散度)與交叉熵的關(guān)系。相對(duì)熵主要用于衡量?jī)蓚€(gè)概率分布之間的差異,連續(xù)概率分布的相對(duì)熵 的計(jì)算公式為:
離散概率分布的相對(duì)熵計(jì)算公式為:
以連續(xù)概率分布為例,交叉熵 的計(jì)算公式為:
信息熵 的計(jì)算公式為:
從而可知:
當(dāng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練一個(gè)給定的數(shù)據(jù)集的時(shí)候,該數(shù)據(jù)集中每個(gè)的樣本數(shù)據(jù)的類標(biāo)簽概率分布的信息熵 (用于衡量一個(gè)分布的不確定性)是固定的。所以,相對(duì)熵 只和交叉熵 有關(guān)。由此可見,深度學(xué)習(xí)中經(jīng)常使用交叉熵作為損失函數(shù),實(shí)際上度量?jī)筛怕史植疾町惖氖窍鄬?duì)熵。
相對(duì)熵的最小值
針對(duì)引言中的第二個(gè)問題,從上一節(jié)可以知道,相對(duì)熵跟交叉熵有相同的變化趨勢(shì),所以這個(gè)問題簡(jiǎn)化為相對(duì)熵是否存在最小值。相對(duì)熵其實(shí)是一個(gè)更抽象的概念 散度的一個(gè)特例。 散度的定義和相關(guān)性質(zhì)如下:
定義 1:給定一個(gè)嚴(yán)格凸的二次連續(xù)可微函數(shù) ,在 的概率密度函數(shù)的 和 的 散度的定義為:
其中 , 確保當(dāng)分布 時(shí),; 確保散度 具有非負(fù)性。
證明:由定義可知, 是一個(gè)嚴(yán)格凸函數(shù),所以可知局部極小值點(diǎn)也是全局極小值點(diǎn),又因?yàn)?,進(jìn)一步則有:
當(dāng)且僅當(dāng) 時(shí):
兩邊取等號(hào)。
當(dāng) 散度中的 函數(shù)為 時(shí),即為相對(duì)熵 :
所以綜上所述,當(dāng) 時(shí), 取到最小值為 。進(jìn)而可以求得,交叉熵 的最小值為:
即交叉熵的最小值為信息熵。
相對(duì)熵最小值與維數(shù)的關(guān)系
引言中的第三個(gè)問題是對(duì)相對(duì)熵最小值數(shù)學(xué)性質(zhì)的進(jìn)一步探討。給定一個(gè)離散的等概率分布向量:
由一節(jié)可知,交叉熵的最小值為信息熵,則該分布的信息熵 為:
所以可知,當(dāng) 變大的時(shí)候,信息熵 也會(huì)跟著變大,則其相對(duì)熵的最小值也會(huì)跟著變大。相應(yīng)的代碼如下所示:
由實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),隨著等概率分布維數(shù)的增加,其最小交叉熵的數(shù)值也增加。
多標(biāo)簽分類學(xué)習(xí)
引言中第四個(gè)問題的提出,其實(shí)是要打破一個(gè)固有認(rèn)知,即神經(jīng)網(wǎng)絡(luò)參數(shù)訓(xùn)練熟的時(shí)候,交叉熵的損失函數(shù)不都為 ,例如在多標(biāo)簽分類學(xué)習(xí)中,交叉熵理論的最小值就不為 。多標(biāo)簽分類任務(wù)與多分類任務(wù)有所不同,多分類任務(wù)是將一個(gè)實(shí)例分到某個(gè)類別中,多標(biāo)簽分類任務(wù)是將某個(gè)實(shí)例分到多個(gè)類別中。如下圖所示,即為一個(gè)多標(biāo)簽分類學(xué)習(xí)的一個(gè)例子,一張圖片里有多個(gè)類別,房子,樹,云等,深度學(xué)習(xí)模型需要將其一一分類識(shí)別出來。
假設(shè) 表示 維樣本空間, 表示 維標(biāo)簽空間。此時(shí)訓(xùn)練該多標(biāo)簽分類器的損失函數(shù)可以有兩種分別是二元交叉熵函數(shù)和多元交叉熵函數(shù)。
當(dāng)采用二元交叉熵函數(shù)的時(shí)候,該多標(biāo)簽分類器的最后一層為 ,多標(biāo)簽分類模型預(yù)測(cè)的概率向量為 ,其中 。此時(shí)真實(shí)標(biāo)簽分布 和預(yù)測(cè)概率分布 的二元損失函數(shù)為:
此時(shí)該二元交叉熵的損失函數(shù)的最小值為 。
測(cè)試樣本輸入到訓(xùn)練成熟多標(biāo)簽分類器的時(shí)候,該樣本的預(yù)測(cè)概率向量的分量如果大于閾值 時(shí),則表示為 1;如果小于閾值 ,則表示為 。
當(dāng)采用多元交叉熵函數(shù)的時(shí)候,該多標(biāo)簽分類器的最后一層為?,多標(biāo)簽分類模型預(yù)測(cè)的概率向量為?,其中 。此時(shí)真實(shí)標(biāo)簽分布 和預(yù)測(cè)概率分布 的多元交叉熵?fù)p失函數(shù)為:
此時(shí)該多元交叉熵的損失函數(shù)的最小值為 。測(cè)試樣本輸入到訓(xùn)練成熟多標(biāo)簽分類器的時(shí)候,該樣本的預(yù)測(cè)概率向量的分量如果大于閾值 時(shí),則表示為 1;如果小于閾值 ?,則表示為。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
📝?稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長(zhǎng)按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的两概率分布交叉熵的最小值是多少?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 博后招募 | 西湖大学工学院蓝振忠深度学
- 下一篇: ACM MM 2021 | 面向多模态情