熵(Entropy),交叉熵(Cross-Entropy),KL-松散度(KL Divergence),似然(Likelihood)
1.介紹:
我們如何去衡量y,y`的接近程度?
在這里我們介紹一下一種衡量方式交叉熵(Cross-Entropy),然后說明一下為什么這種方式適用于分類問題。
2.熵(Entropy):
熵的概念來自物理中的熱力學,表示熱力學系統中的無序程度,我們說的熵是信息論中的熵,表示對不確定性的測量,熵越高,能傳輸的信息越多,熵越少,傳輸的信息越少。
也就是我們現在有了觀測到的概率分布y,y_i = P(X=x_i)。我們要使用平均最小的bit,所以我們應該為x_i 分配log(1/y_i) 個比特。對所有的x_i 我們都有一個對應的最小需要分配的bit長度,那么我們對這個log(1/y_i)求期望也就得到了X的熵的定義了:
3.交叉熵(Cross-Entropy):
假如說我們用這個分布來作為我們來對事件編碼的一個工具,熵就衡量了我們用這個正確的分布y來對事件編碼所能用的最小的bit 長度,我們不能用更短的bit來編碼這些事件或者符號了。
相對的,交叉熵是我們要對y這個分布去編碼,但是我們用了一些模型估計分布y`。這里的話通過y`這個分布我們得到的關于x_i的最小編碼長度就變成了log(1/y`_i),但是呢,我們的期望仍是關于真是分布y的。所以交叉熵的定義就變成了:
交叉熵是大于等于熵的,因為我們使用了錯誤的分布y`會帶來更多的bit使用。當y和y`相等的時候,交叉熵就等于熵了。
4.KL 松散度(KL Divergence):
KL松散度和交叉熵的區別比較小,KL松散度又叫做相對熵,從定義很好看出區別:
這個意思就是說我們要編碼一個服從y分布的隨機變量,假設我們使用了一些數據估計出來這個隨機變量的分布是y`,那么我們需要用比真實的最小bit多多少來編碼這個隨機變量。這個值是大于等于0的,并且當,y和y`相等的時候才為0。注意這里對交叉熵求最小和對KL松散度求最小是一樣的。也就是我們要調整參數使得交叉熵和熵更接近,KL松散度越接近0,也就是y`越接近y。
5.預測:
通過上面的描述和介紹,我們應該很高興使用交叉熵來比較兩個分布y,y`之間的不同,然后我們可以用所有訓練數據的交叉熵的和來作為我們的損失,假如用n來表示我們訓練數據的數量,則損失loss為:
來對這個函數求最小值我們就可以求到最好的參數來使得y和y`最接近。
6.似然(Likelihood):
我們來看看另一種關于兩個分布之間差異的測量標準–似然,這種標準更加直接,似然越大說明兩個分布越接近,在分類問題中,我們會選擇那些多數時候預測對了的模型。因為我們總是假設所有的數據點都是獨立同分布的,對于所有數據的似然就可以定義為所有單個數據點的似然的乘積:
對于第n個數據他的似然怎么算呢?其實很簡單,就是簡單的y*y,來看一下我們最初的那個例子y={蘋果:1,梨子:0},y`={蘋果:0.4,梨子:0.6},所以似然就等于:
所以這里我們是不是可以考慮一下使用極大似然估計法來求最優參數呢?也就是求似然函數的極大值點。我們來對這個似然函數動一點點手腳。
我們知道對數函數使連續單調函數,我們要求似然函數的極大值等同于我們要求對數似然函數的極大值,然后我們取一個負,就等同于求負對數似然函數的極小值:
這樣,我們就可以把似然函數中的累積連乘變成累加了。而且我們知道我們的觀測結果y中兩個元素必有一個元素是1,另一個元素是0.則對數似然函數為:
然后我們看看所有的數據的負對數似然:
看著有沒有一點眼熟?這就是我們上面的所有數據的交叉熵:
7.總結:
當我們做一個分類模型的時候,我們需要一種方法去衡量真實概率分布y和預測概率分布y`之間的差異,然后在訓練過程中調整參數來減小這個差異。在這篇文章中我們可以看到交叉熵是一種不錯的可行的選擇,通過上面的這些等式可以看到,我們求交叉熵的極小值也就等同于我們求負對數似然的極小值。
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的熵(Entropy),交叉熵(Cross-Entropy),KL-松散度(KL Divergence),似然(Likelihood)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Insertion Sort
- 下一篇: SVM 复盘总结