关于互信息(Mutual Information),我有些话要说
兩個隨機變量的獨立性表示兩個變量X與Y是否有關(guān)系(貝葉斯可證),但是關(guān)系的強弱(mutual dependence)是無法表示的,為此我們引入了互信息。
其中p(x,y) 是X和Y的聯(lián)合概率分布函數(shù),而p(x)和p(y)分別是X和Y的邊緣概率分布函數(shù)。
在連續(xù)隨機變量的情形下,求和被替換成了二重定積分:
其中p(x,y) 當前是X和Y的聯(lián)合概率密度函數(shù),而p(x)和p(y)分別是X和Y的邊緣概率密度函數(shù)。
互信息量I(xi;yj)在聯(lián)合概率空間P(XY)中的統(tǒng)計平均值。 平均互信息I(X;Y)克服了互信息量I(xi;yj)的隨機性,成為一個確定的量。如果對數(shù)以 2 為基底,互信息的單位是bit。
直觀上,互信息度量X和Y共享的信息:它度量知道這兩個變量其中一個,對另一個不確定度減少的程度。例如,如果X和Y相互獨立,則知道X不對Y提供任何信息,反之亦然,所以它們的互信息為零。在另一個極端,如果X是Y的一個確定性函數(shù),且Y也是X的一個確定性函數(shù),那么傳遞的所有信息被X和Y共享:知道X決定Y的值,反之亦然。因此,在此情形互信息與Y(或X)單獨包含的不確定度相同,稱作Y(或X)的熵。而且,這個互信息與X的熵和Y的熵相同。(這種情形的一個非常特殊的情況是當X和Y為相同隨機變量時。)
互信息是X和Y聯(lián)合分布相對于假定X和Y獨立情況下的聯(lián)合分布之間的內(nèi)在依賴性。于是互信息以下面方式度量依賴性:I(X;Y) = 0當且僅當X和Y為獨立隨機變量。從一個方向很容易看出:當X和Y獨立時,p(x,y) =p(x)p(y),因此:
此外,互信息是非負的(即I(X;Y)≥0; 見下文),而且是對稱的(即I(X;Y) =I(Y;X))。
但是很明顯,信息量是有隨機性的
于是就有了平均互信息
2.平均互信息量的物理含義
(1)觀察者站在輸出端
H(X/Y) —信道疑義度/損失熵.。Y關(guān)于X的后驗不確定度。表示收到變量Y后,對隨機變量X仍然存在的不確定度。代表了在信道中損失的信息。
H(X) —X的先驗不確定度/無條件熵。
I(X;Y)—收到Y(jié)前后關(guān)于X的不確定度減少的量。從Y獲得的關(guān)于X的平均信息量。
(2)觀察者站在輸入端
H(Y/X)—噪聲熵。表示發(fā)出隨機變量X后, 對隨機變量Y仍然存在的平均不確定度。如果信道中不存在任何噪聲, 發(fā)送端和接收端必存在確定的對應(yīng)關(guān)系, 發(fā)出X后必能確定對應(yīng)的Y, 而現(xiàn)在不能完全確定對應(yīng)的Y, 這顯然是由信道噪聲所引起的。
I(Y;X) —發(fā)出X前后關(guān)于Y的先驗不確定度減少的量。
(3)觀察者站在通信系統(tǒng)總體立場上
H(XY)—聯(lián)合熵.表示輸入隨機變量X, 經(jīng)信道傳輸?shù)竭_信宿, 輸出隨機變量Y。即收,發(fā)雙方通信后,整個系統(tǒng)仍然存在的不確定度.
I(X;Y) —通信前后整個系統(tǒng)不確定度減少量。在通信前把X和Y看成兩個相互獨立的隨機變量, 整個系統(tǒng)的先驗不確定度為X和Y的聯(lián)合熵H(X)+H(Y); 通信后把信道兩端出現(xiàn)X和Y看成是由信道的傳遞統(tǒng)計特性聯(lián)系起來的, 具有一定統(tǒng)計關(guān)聯(lián)關(guān)系的兩個隨機變量, 這時整個系統(tǒng)的后驗不確定度由H(XY)描述。
以上三種不同的角度說明: 從一個事件獲得另一個事件的平均互信息需要消除不確定度,一旦消除了不確定度,就獲得了信息。
3.平均互信息量的性質(zhì)
(1)對稱性
I(X;Y)= I(Y;X)
由Y提取到的關(guān)于X的信息量與從X中提取到的關(guān)于Y的信息量是一樣的。 I(X;Y)和 I(Y;X)只是觀察者的立足點不同。
(2)非負性
I(X;Y)≥0
平均互信息量不是從兩個具體消息出發(fā), 而是從隨機變量X和Y的整體角度出發(fā), 并在平均意義上觀察問題, 所以平均互信息量不會出現(xiàn)負值。或者說從一個事件提取關(guān)于另一個事件的信息, 最壞的情況是0, 不會由于知道了一個事件,反而使另一個事件的不確定度增加。
(3)極值性
I(X;Y)≤H(X)
I(Y;X)≤H(Y)
從一個事件提取關(guān)于另一個事件的信息量, 至多是另一個事件的熵那么多, 不會超過另一個事件自身所含的信息量。當X和Y是一一對應(yīng)關(guān)系時: I(X;Y)=H(X), 這時H(X/Y)=0。從一個事件可以充分獲得關(guān)于另一個事件的信息, 從平均意義上來說, 代表信源的信息量可全部通過信道。當X和Y相互獨立時: H(X/Y) =H(X), I(Y;X)=0。 從一個事件不能得到另一個事件的任何信息,這等效于信道中斷的情況。
(4) 凸函數(shù)性
平均互信息量是p(xi)和p(yj /xi)的函數(shù),即I(X;Y)=f [p(xi), p(yj /xi)];
若固定信道,調(diào)整信源, 則平均互信息量I(X;Y)是p(xi)的函數(shù),即I(X;Y)=f [p(xi)];
若固定信源,調(diào)整信道, 則平均互信息量I(X;Y)是p(yj /xi)的函數(shù),即I(X;Y)=f [p (yj /xi)]。
平均互信息量I(X;Y)是輸入信源概率分布p(xi)的上凸函數(shù)(concave function; or convext cap function)。
平均互信息量I(X;Y)是輸入轉(zhuǎn)移概率分布p(yj /xi)的下凸函數(shù)(convext function; or convext cup function)。
(5)數(shù)據(jù)處理定理
串聯(lián)信道:在一些實際通信系統(tǒng)中, 常常出現(xiàn)串聯(lián)信道。例如微波中繼接力通信就是一種串聯(lián)信道。信宿收到數(shù)據(jù)后再進行數(shù)據(jù)處理, 數(shù)據(jù)處理系統(tǒng)可看成一種信道, 它與前面?zhèn)鬏敂?shù)據(jù)的信道構(gòu)成串聯(lián)信道。
數(shù)據(jù)處理定理:當消息經(jīng)過多級處理后,隨著處理器數(shù)目的增多,輸入消息與輸出消息之間的平均互信息量趨于變小。即
I(X;Z)≤I(X;Y)
I(X;Z)≤I(Y;Z)
其中假設(shè)Y條件下X和Z相互獨立。
兩級串聯(lián)信道輸入與輸出消息之間的平均互信息量既不會超過第Ⅰ級信道輸入與輸出消息之間的平均互信息量,也不會超過第Ⅱ級信道輸入與輸出消息之間的平均互信息量。
當對信號/數(shù)據(jù)/消息進行多級處理時, 每處理一次, 就有可能損失一部分信息, 也就是說數(shù)據(jù)處理會把信號/數(shù)據(jù)/消息變成更有用的形式, 但是絕不會創(chuàng)造出新的信息。這就是所謂的信息不增原理。
當已用某種方式取得Y后, 不管怎樣對Y進行處理, 所獲得的信息不會超過I(X;Y)。每處理一次, 只會使信息量減少, 至多不變。也就是說在任何信息流通系統(tǒng)中, 最后獲得的信息量,至多是信源提供的信息。一旦在某一過程中丟失了一些信息, 以后的系統(tǒng)不管怎樣處理, 如果不能接觸到丟失信息的輸入端, 就不能再恢復(fù)已丟失的信息。
對于互信息我們可以證明下列等式:
I(X;Y) = H(Y) - H(Y|X)
直觀地說,如果把熵H(Y) 看作一個隨機變量不確定度的量度,那么H(Y|X) 就是X沒有涉及到的Y的部分的不確定度的量度。這就是“在X已知之后Y的剩余不確定度的量”,于是第一個等式的右邊就可以讀作“Y的不確定度,減去在X已知之后Y的剩余不確定度的量”,此式等價于“移除知道X后Y的不確定度的量”。
這證實了互信息的直觀意義為知道其中一個變量提供的另一個的信息量(即不確定度的減少量)。
互信息也可以表示為兩個隨機變量的邊緣分布X和Y的乘積p(x) ×p(y) 相對于隨機變量的聯(lián)合熵p(x,y) 的相對熵:
現(xiàn)在以Y為變量。于是互信息也可以理解為相對熵X的單變量分布p(x) 相對于給定Y時X的條件分布p(x|y) :分布p(x|y) 和p(x) 之間的平均差異越大,信息增益越大。
具體的學(xué)習(xí)祥見以下網(wǎng)址
https://www.cnblogs.com/gatherstars/p/6004075.html
總結(jié)
以上是生活随笔為你收集整理的关于互信息(Mutual Information),我有些话要说的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: js打字的效果
- 下一篇: 02、体验Spark shell下RDD