信息论学习总结
我們考慮一下一個(gè)離散的隨機(jī)變量x,當(dāng)我們觀察到它的一個(gè)值,能給我們帶來(lái)多少信息呢?這個(gè)信息量可以看做是我們觀察到x的這個(gè)值帶來(lái)的驚訝程度。我們被告知一個(gè)不太可能發(fā)生的事發(fā)生了要比告知一個(gè)非常可能發(fā)生的事發(fā)生,我們獲得信息要多。
所以信息量的多少依賴(lài)于概率分布p(x),所以我們可以用關(guān)于p(x)的一個(gè)函數(shù)來(lái)建模信息量h(x).那什么函數(shù)模型適合表達(dá)呢?
我們觀察兩個(gè)相互獨(dú)立的事件x,y,我們觀察它得到的信息量,要和單獨(dú)觀察他們得到的信息量之和相等。即
h(x,y) = h(x) + h(y)
而兩個(gè)獨(dú)立的時(shí)間x,y的概率關(guān)系:
p(x,y) = p(x) p(y)
基于上面的觀察,信息量必須和p(x)的log函數(shù)相關(guān)。
所以我們得到:
加上負(fù)號(hào),可以保證信息量大于等于0。注意一個(gè)小概率事件,具有更高的信息量。
log的底數(shù)選擇并沒(méi)有限制。信息論中大多都采用2,傳輸這些信息量需要的2進(jìn)制位數(shù)。
如果我們想傳輸這個(gè)隨機(jī)變量的值,我們傳輸?shù)钠骄畔⒘浚梢员硎緸殛P(guān)于分布
p(x)的期望:
所以信息量的多少依賴(lài)于概率分布p(x),所以我們可以用關(guān)于p(x)的一個(gè)函數(shù)來(lái)建模信息量h(x).那什么函數(shù)模型適合表達(dá)呢?
我們觀察兩個(gè)相互獨(dú)立的事件x,y,我們觀察它得到的信息量,要和單獨(dú)觀察他們得到的信息量之和相等。即
h(x,y) = h(x) + h(y)
而兩個(gè)獨(dú)立的時(shí)間x,y的概率關(guān)系:
p(x,y) = p(x) p(y)
基于上面的觀察,信息量必須和p(x)的log函數(shù)相關(guān)。
所以我們得到:
加上負(fù)號(hào),可以保證信息量大于等于0。注意一個(gè)小概率事件,具有更高的信息量。
log的底數(shù)選擇并沒(méi)有限制。信息論中大多都采用2,傳輸這些信息量需要的2進(jìn)制位數(shù)。
如果我們想傳輸這個(gè)隨機(jī)變量的值,我們傳輸?shù)钠骄畔⒘浚梢员硎緸殛P(guān)于分布
p(x)的期望:
總結(jié)
- 上一篇: 局部敏感哈希(Locality-Sens
- 下一篇: 使用SGD(Stochastic Gra