信息论里的信息熵到底是什么含义?互信息的定义
生活随笔
收集整理的這篇文章主要介紹了
信息论里的信息熵到底是什么含义?互信息的定义
小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
讓我們說(shuō)人話!好的數(shù)學(xué)概念都應(yīng)該是通俗易懂的。
信息熵,信息熵,怎么看怎么覺(jué)得這個(gè)“熵”字不順眼,那就先不看。我們起碼知道這個(gè)概念跟信息有關(guān)系。而它又是個(gè)數(shù)學(xué)模型里面的概念,一般而言是可以量化的。所以,第一個(gè)問(wèn)題來(lái)了:信息是不是可以量化?
起碼直覺(jué)上而言是可以的,不然怎么可能我們覺(jué)得有些人說(shuō)的廢話特別多,“沒(méi)什么信息量”,有些人一語(yǔ)中的,一句話就傳達(dá)了很大的信息量。
為什么有的信息量大有的信息量小?
有些事情本來(lái)不是很確定,例如明天股票是漲還是跌。如果你告訴我明天NBA決賽開始了,這兩者似乎沒(méi)啥關(guān)系啊,所以你的信息對(duì)明天股票是漲是跌帶來(lái)的信息量很少。但是假如NBA決賽一開始,大家都不關(guān)注股票了沒(méi)人坐莊股票有99%的概率會(huì)跌,那你這句話信息量就很大,因?yàn)楸緛?lái)不確定的事情變得十分確定。
而有些事情本來(lái)就很確定了,例如太陽(yáng)從東邊升起,你再告訴我一百遍太陽(yáng)從東邊升起,你的話還是絲毫沒(méi)有信息量的,因?yàn)檫@事情不能更確定了。
所以說(shuō)信息量的大小跟事情不確定性的變化有關(guān)。
那么,不確定性的變化跟什么有關(guān)呢?
一,跟事情的可能結(jié)果的數(shù)量有關(guān);二,跟概率有關(guān)。
先說(shuō)一。
例如我們討論太陽(yáng)從哪升起。本來(lái)就只有一個(gè)結(jié)果,我們?cè)缇椭?#xff0c;那么無(wú)論誰(shuí)傳遞任何信息都是沒(méi)有信息量的。
當(dāng)可能結(jié)果數(shù)量比較大時(shí),我們得到的新信息才有潛力擁有大信息量。
二,單看可能結(jié)果數(shù)量不夠,還要看初始的概率分布。例如一開始我就知道小明在電影院的有15*15個(gè)座位的A廳看電影。小明可以坐的位置有225個(gè),可能結(jié)果數(shù)量算多了。可是假如我們一開始就知道小明坐在第一排的最左邊的可能是99%,坐其它位置的可能性微乎其微,那么在大多數(shù)情況下,你再告訴我小明的什么信息也沒(méi)有多大用,因?yàn)槲覀儙缀醮_定小明坐第一排的最左邊了。
那么,怎么衡量不確定性的變化的大小呢?怎么定義呢?
這個(gè)問(wèn)題不好回答,但是假設(shè)我們已經(jīng)知道這個(gè)量已經(jīng)存在了,不妨就叫做信息量,那么你覺(jué)得信息量起碼該滿足些什么特點(diǎn)呢?
一,起碼不是個(gè)負(fù)數(shù)吧,不然說(shuō)句話還偷走信息呢~
二,起碼信息量和信息量之間可以相加吧!假如你告訴我的第一句話的信息量是3,在第一句話的基礎(chǔ)上又告訴我一句話,額外信息量是4,那么兩句話信息量加起來(lái)應(yīng)該等于7吧!難道還能是5是9?
三,剛剛已經(jīng)提過(guò),信息量跟概率有關(guān)系,但我們應(yīng)該會(huì)覺(jué)得,信息量是連續(xù)依賴于概率的吧!就是說(shuō),某一個(gè)概率變化了0.0000001,那么這個(gè)信息量不應(yīng)該變化很大。
四,剛剛也提過(guò),信息量大小跟可能結(jié)果數(shù)量有關(guān)。假如每一個(gè)可能的結(jié)果出現(xiàn)的概率一樣,那么對(duì)于可能結(jié)果數(shù)量多的那個(gè)事件,新信息有更大的潛力具有更大的信息量,因?yàn)槌跏紶顟B(tài)下不確定性更大。
那有什么函數(shù)能滿足上面四個(gè)條件呢?負(fù)的對(duì)數(shù)函數(shù),也就是-log(x)!底數(shù)取大于1的數(shù)保證這個(gè)函數(shù)是非負(fù)的就行。前面再隨便乘個(gè)正常數(shù)也行。
a. 為什么不是正的?因?yàn)榧偃缡钦?#xff0c;由于x是小于等于1的數(shù),log(x)就小于等于0了。第一個(gè)特點(diǎn)滿足。
b. 咱們?cè)賮?lái)驗(yàn)證一下其他特點(diǎn)。三是最容易的。假如x是一個(gè)概率,那么log(x)是連續(xù)依賴于x的。done
c。四呢?假如有n個(gè)可能結(jié)果,那么出現(xiàn)任意一個(gè)的概率是1/n,而-log(1/n)是n的增函數(shù),沒(méi)問(wèn)題。
d。最后驗(yàn)證二。由于-log(xy) = -log(x) -log(y),所以也是對(duì)的。學(xué)數(shù)學(xué)的同學(xué)注意,這里的y可以是給定x的條件概率,當(dāng)然也可以獨(dú)立于x。
By the way,這個(gè)函數(shù)是唯一的(除了還可以多乘上任意一個(gè)常數(shù)),有時(shí)間可以自己證明一下,或者查書。
ok,所以我們知道一個(gè)事件的信息量就是這個(gè)事件發(fā)生的概率的負(fù)對(duì)數(shù)。
最后終于能回到信息熵。信息熵是跟所有可能性有關(guān)系的。每個(gè)可能事件的發(fā)生都有個(gè)概率。信息熵就是平均而言發(fā)生一個(gè)事件我們得到的信息量大小。所以數(shù)學(xué)上,信息熵其實(shí)是信息量的期望。(表達(dá)式參考其它答案或者看下面)
至于為什么用“熵”這個(gè)怪字?大概是當(dāng)時(shí)翻譯的人覺(jué)得這個(gè)量跟熱力學(xué)的熵有關(guān)系,所以就用了這個(gè)字,君不見(jiàn)字里頭的火字旁?
而熱力學(xué)為什么用這個(gè)字?這個(gè)真心不知道。。。
信道容量是指互信息量的最大值。具體地說(shuō),就是在一定帶寬和信噪比下,借助某種編碼方案實(shí)現(xiàn)無(wú)差錯(cuò)傳輸時(shí)可以達(dá)到的最大速率,它是一個(gè)上界,在實(shí)際應(yīng)用中,傳輸速率一定不能大于信道容量。信道容量考量的對(duì)象主要是物理信道,而非傳輸技術(shù)。
容量C的定義:每個(gè)符號(hào)能夠傳輸?shù)钠骄畔⒘孔畲笾?
所以在無(wú)噪聲條件下,從接收一個(gè)符號(hào)獲得的平均信息量為H(x)。而原來(lái)在有噪聲條件下,從一個(gè)符號(hào)獲得的平均信息量為[H(x)-H(x/y)]。這再次說(shuō)明H(x/y)即為因噪聲而損失的平均信息量。
信息熵,信息熵,怎么看怎么覺(jué)得這個(gè)“熵”字不順眼,那就先不看。我們起碼知道這個(gè)概念跟信息有關(guān)系。而它又是個(gè)數(shù)學(xué)模型里面的概念,一般而言是可以量化的。所以,第一個(gè)問(wèn)題來(lái)了:信息是不是可以量化?
起碼直覺(jué)上而言是可以的,不然怎么可能我們覺(jué)得有些人說(shuō)的廢話特別多,“沒(méi)什么信息量”,有些人一語(yǔ)中的,一句話就傳達(dá)了很大的信息量。
為什么有的信息量大有的信息量小?
有些事情本來(lái)不是很確定,例如明天股票是漲還是跌。如果你告訴我明天NBA決賽開始了,這兩者似乎沒(méi)啥關(guān)系啊,所以你的信息對(duì)明天股票是漲是跌帶來(lái)的信息量很少。但是假如NBA決賽一開始,大家都不關(guān)注股票了沒(méi)人坐莊股票有99%的概率會(huì)跌,那你這句話信息量就很大,因?yàn)楸緛?lái)不確定的事情變得十分確定。
而有些事情本來(lái)就很確定了,例如太陽(yáng)從東邊升起,你再告訴我一百遍太陽(yáng)從東邊升起,你的話還是絲毫沒(méi)有信息量的,因?yàn)檫@事情不能更確定了。
所以說(shuō)信息量的大小跟事情不確定性的變化有關(guān)。
那么,不確定性的變化跟什么有關(guān)呢?
一,跟事情的可能結(jié)果的數(shù)量有關(guān);二,跟概率有關(guān)。
先說(shuō)一。
例如我們討論太陽(yáng)從哪升起。本來(lái)就只有一個(gè)結(jié)果,我們?cè)缇椭?#xff0c;那么無(wú)論誰(shuí)傳遞任何信息都是沒(méi)有信息量的。
當(dāng)可能結(jié)果數(shù)量比較大時(shí),我們得到的新信息才有潛力擁有大信息量。
二,單看可能結(jié)果數(shù)量不夠,還要看初始的概率分布。例如一開始我就知道小明在電影院的有15*15個(gè)座位的A廳看電影。小明可以坐的位置有225個(gè),可能結(jié)果數(shù)量算多了。可是假如我們一開始就知道小明坐在第一排的最左邊的可能是99%,坐其它位置的可能性微乎其微,那么在大多數(shù)情況下,你再告訴我小明的什么信息也沒(méi)有多大用,因?yàn)槲覀儙缀醮_定小明坐第一排的最左邊了。
那么,怎么衡量不確定性的變化的大小呢?怎么定義呢?
這個(gè)問(wèn)題不好回答,但是假設(shè)我們已經(jīng)知道這個(gè)量已經(jīng)存在了,不妨就叫做信息量,那么你覺(jué)得信息量起碼該滿足些什么特點(diǎn)呢?
一,起碼不是個(gè)負(fù)數(shù)吧,不然說(shuō)句話還偷走信息呢~
二,起碼信息量和信息量之間可以相加吧!假如你告訴我的第一句話的信息量是3,在第一句話的基礎(chǔ)上又告訴我一句話,額外信息量是4,那么兩句話信息量加起來(lái)應(yīng)該等于7吧!難道還能是5是9?
三,剛剛已經(jīng)提過(guò),信息量跟概率有關(guān)系,但我們應(yīng)該會(huì)覺(jué)得,信息量是連續(xù)依賴于概率的吧!就是說(shuō),某一個(gè)概率變化了0.0000001,那么這個(gè)信息量不應(yīng)該變化很大。
四,剛剛也提過(guò),信息量大小跟可能結(jié)果數(shù)量有關(guān)。假如每一個(gè)可能的結(jié)果出現(xiàn)的概率一樣,那么對(duì)于可能結(jié)果數(shù)量多的那個(gè)事件,新信息有更大的潛力具有更大的信息量,因?yàn)槌跏紶顟B(tài)下不確定性更大。
那有什么函數(shù)能滿足上面四個(gè)條件呢?負(fù)的對(duì)數(shù)函數(shù),也就是-log(x)!底數(shù)取大于1的數(shù)保證這個(gè)函數(shù)是非負(fù)的就行。前面再隨便乘個(gè)正常數(shù)也行。
a. 為什么不是正的?因?yàn)榧偃缡钦?#xff0c;由于x是小于等于1的數(shù),log(x)就小于等于0了。第一個(gè)特點(diǎn)滿足。
b. 咱們?cè)賮?lái)驗(yàn)證一下其他特點(diǎn)。三是最容易的。假如x是一個(gè)概率,那么log(x)是連續(xù)依賴于x的。done
c。四呢?假如有n個(gè)可能結(jié)果,那么出現(xiàn)任意一個(gè)的概率是1/n,而-log(1/n)是n的增函數(shù),沒(méi)問(wèn)題。
d。最后驗(yàn)證二。由于-log(xy) = -log(x) -log(y),所以也是對(duì)的。學(xué)數(shù)學(xué)的同學(xué)注意,這里的y可以是給定x的條件概率,當(dāng)然也可以獨(dú)立于x。
By the way,這個(gè)函數(shù)是唯一的(除了還可以多乘上任意一個(gè)常數(shù)),有時(shí)間可以自己證明一下,或者查書。
ok,所以我們知道一個(gè)事件的信息量就是這個(gè)事件發(fā)生的概率的負(fù)對(duì)數(shù)。
最后終于能回到信息熵。信息熵是跟所有可能性有關(guān)系的。每個(gè)可能事件的發(fā)生都有個(gè)概率。信息熵就是平均而言發(fā)生一個(gè)事件我們得到的信息量大小。所以數(shù)學(xué)上,信息熵其實(shí)是信息量的期望。(表達(dá)式參考其它答案或者看下面)
至于為什么用“熵”這個(gè)怪字?大概是當(dāng)時(shí)翻譯的人覺(jué)得這個(gè)量跟熱力學(xué)的熵有關(guān)系,所以就用了這個(gè)字,君不見(jiàn)字里頭的火字旁?
而熱力學(xué)為什么用這個(gè)字?這個(gè)真心不知道。。。
自信息量:一個(gè)事件(消息)本身所包含的信息量,由事件的不確定性決定的。
即隨機(jī)事件Xi發(fā)生概率為P(xi),則隨機(jī)事件的自信息量定義為:
信息熵:隨機(jī)變量自信息量I(xi)的數(shù)學(xué)期望(平均自信息量),用H(X)表示,即為熵的定義:
??
在這里?b?是對(duì)數(shù)所使用的底,通常是 2, 自然常數(shù)?e,或是10。當(dāng)b?=?2,熵的單位是bit;當(dāng)b?=?e,熵的單位是?nat;而當(dāng)?b?=?10,熵的單位是?dit。
互信息的定義: 原來(lái)我對(duì)X有些不確定(不確定性為H(X)即熵),告訴我Y后我對(duì)X不確定性變?yōu)镠(X|Y)條件熵, 這個(gè)不確定性的減少量就是X,Y之間的互信息I(X;Y)=H(X)-H(X|Y)。信道容量是指互信息量的最大值。具體地說(shuō),就是在一定帶寬和信噪比下,借助某種編碼方案實(shí)現(xiàn)無(wú)差錯(cuò)傳輸時(shí)可以達(dá)到的最大速率,它是一個(gè)上界,在實(shí)際應(yīng)用中,傳輸速率一定不能大于信道容量。信道容量考量的對(duì)象主要是物理信道,而非傳輸技術(shù)。
容量C的定義:每個(gè)符號(hào)能夠傳輸?shù)钠骄畔⒘孔畲笾?
單位: (比特/符號(hào))?
Ct ?:b/s
所以在無(wú)噪聲條件下,從接收一個(gè)符號(hào)獲得的平均信息量為H(x)。而原來(lái)在有噪聲條件下,從一個(gè)符號(hào)獲得的平均信息量為[H(x)-H(x/y)]。這再次說(shuō)明H(x/y)即為因噪聲而損失的平均信息量。
總結(jié)
以上是生活随笔為你收集整理的信息论里的信息熵到底是什么含义?互信息的定义的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Jensen不等式初步理解及证明
- 下一篇: 初学者-C语言基础练习(二)——C语言编