信息论——联合熵
聯合熵
- Q:什么是聯合熵?
- Q:聯合熵的物理意義是什么?
Q:什么是聯合熵?
聯合熵就是度量一個聯合分布的隨機系統的不確定度,下面給出兩個隨機變量的聯合熵的定義:
分布為 p(x,y)p(x,y)p(x,y) 的一對隨機變量 (X,Y)(X,Y)(X,Y) ,其聯合熵定義為:
H(X,Y)=?∑x∈X∑y∈Yp(x,y)log?p(x,y)=E[log?1p(x,y)]H(X,Y)=-\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{} {p(x,y)\log p(x,y)}=E\left[ \log\frac{1}{p(x,y)} \right]H(X,Y)=?∑x∈X?∑y∈Y?p(x,y)logp(x,y)=E[logp(x,y)1?]
與信息熵一樣也是一個數學期望
Q:聯合熵的物理意義是什么?
聯合熵的物理意義是:觀察一個多個隨機變量的隨機系統獲得的信息量。
為了進一步剖析聯合熵,我們對其的進行數學推導如下:
H(X,Y)=?∑x∈X∑y∈Yp(x,y)log?p(x,y)=?∑x∈X∑y∈Yp(x,y)log?p(x)p(y∣x)H(X,Y)=-\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{}{p(x,y)\log p(x,y)}=-\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{}p(x,y)\log p(x)p(y|x)H(X,Y)=?∑x∈X?∑y∈Y?p(x,y)logp(x,y)=?∑x∈X?∑y∈Y?p(x,y)logp(x)p(y∣x)
=?∑x∈X∑y∈Yp(x,y)log?p(x)?∑x∈X∑y∈Yp(x,y)log?p(y∣x)=-\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{}p(x,y)\log p(x)-\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{}p(x,y)\log p(y|x)=?∑x∈X?∑y∈Y?p(x,y)logp(x)?∑x∈X?∑y∈Y?p(x,y)logp(y∣x)
=?∑x∈Xp(x)log?p(x)?∑x∈X∑y∈Yp(x,y)log?p(y∣x)=-\sum_{x \in \mathcal{X}}^{} p(x)\log p(x)-\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{}p(x,y)\log p(y|x)=?∑x∈X?p(x)logp(x)?∑x∈X?∑y∈Y?p(x,y)logp(y∣x)
=H(X)+H(Y∣X)=H(X)+H(Y|X)=H(X)+H(Y∣X)
注: ?∑x∈X∑y∈Yp(x,y)log?p(x)-\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{}p(x,y)\log p(x)?∑x∈X?∑y∈Y?p(x,y)logp(x) 通過邊緣化 yyy 得到 ?∑x∈Xp(x)log?p(x)-\sum_{x \in \mathcal{X}}^{} p(x)\log p(x)?∑x∈X?p(x)logp(x)
其中,條件熵 H(Y∣X)H(Y|X)H(Y∣X) 由 ?∑x∈X∑y∈Yp(x,y)log?p(y∣x)-\sum_{x \in \mathcal{X}}^{} \sum_{y \in \mathcal{Y}}^{}p(x,y)\log p(y|x)?∑x∈X?∑y∈Y?p(x,y)logp(y∣x) 所定義,其物理意義就是,在得知某一確定信息的基礎上獲取另外一個信息時所獲得的信息量。
繼續討論聯合熵,對于式子 H(X,Y)=H(X)+H(Y∣X)H(X,Y)=H(X)+H(Y|X)H(X,Y)=H(X)+H(Y∣X) 所表達的物理含義是,對一個兩個隨機變量的隨機系統,我們可以先觀察一個隨機變量獲取信息量,觀察完后,我們可以在擁有這個信息量的基礎上觀察第二個隨機變量的信息量。其那么先觀察哪一個隨機變量對信息量的獲取有影響嗎?利用概率論的知識,我們可以輕易得出:H(X,Y)=H(Y)+H(X∣Y)H(X,Y)=H(Y)+H(X|Y)H(X,Y)=H(Y)+H(X∣Y)。也就是說,先觀察誰,對信息量都不會有影響,這是非常符合直覺的。
基于上述的討論,我們不禁會問,如果有n個隨機變量處于一個隨機系統中,那么我們獲取其聯合熵也是無關觀察先后嗎?答案是肯定的。為了說明原因,我們給出熵的鏈式法則:
設隨機變量 X1,X2,? ,XnX_{1},X_{2},\cdots,X_{n}X1?,X2?,?,Xn? 服從 p(x1,x2,? ,xn)p(x_{1},x_{2},\cdots,x_{n})p(x1?,x2?,?,xn?) ,則有:
H(X1,X2,? ,Xn)=∑i=1nH(Xi∣Xi?1,? ,X1)H(X_{1},X_{2},\cdots,X_{n})= \sum_{i=1}^{{n}}H(X_{i}|X_{i-1},\cdots,X_{1})H(X1?,X2?,?,Xn?)=∑i=1n?H(Xi?∣Xi?1?,?,X1?)
我們可以利用數學推導證明:
H(X1,X2,? ,Xn)=?∑x1,? ,xn∈Xnp(x1,? ,xn)log?p(x1,? ,xn)=?∑x1,? ,xn∈Xnp(x1,? ,xn)log?p(x1,? ,xn?1)p(xn∣x1,? ,xn?1)=?∑x1,? ,xn∈Xnp(x1,? ,xn)log?p(x1,? ,xn?2)p(xn?1∣x1,? ,xn?2)p(xn∣x1,? ,xn?1)=?∑x1,? ,xn∈Xnp(x1,? ,xn)log∏i=1np(xi∣xi?1,? ,x1)=?∑x1,? ,xn∈Xnp(x1,? ,xn)∑i=1nlog?p(xi∣xi?1,? ,x1)=?∑i=1n∑x1,? ,xi∈Xip(x1,? ,xi)log?p(xi∣xi?1,? ,x1)=∑i=1nH(Xi∣Xi?1,? ,X1)H(X_{1},X_{2},\cdots,X_{n})=- \sum_{x_{1},\cdots,x_{n}\in \mathcal{X}^{n}}^{{}}p(x_{1},\cdots,x_{n})\log p(x_{1},\cdots,x_{n}) =- \sum_{x_{1},\cdots,x_{n}\in \mathcal{X}^{n}}^{{}}p(x_{1},\cdots,x_{n})\log p(x_{1},\cdots,x_{n-1})p(x_{n}|x_{1},\cdots,x_{n-1}) =- \sum_{x_{1},\cdots,x_{n}\in \mathcal{X}^{n}}^{{}}p(x_{1},\cdots,x_{n})\log p(x_{1},\cdots,x_{n-2})p(x_{n-1}|x_{1},\cdots,x_{n-2})p(x_{n}|x_{1},\cdots,x_{n-1}) =- \sum_{x_{1},\cdots,x_{n}\in \mathcal{X}^{n}}^{{}}p(x_{1},\cdots,x_{n})log\prod_{i=1}^{n}p(x_{i}|x_{i-1},\cdots,x_{1}) =- \sum_{x_{1},\cdots,x_{n}\in \mathcal{X}^{n}}^{{}}p(x_{1},\cdots,x_{n}) \sum_{i=1}^{n} \log p(x_{i}|x_{i-1},\cdots,x_{1}) =-\sum_{i=1}^{n} \sum_{x_{1},\cdots,x_{i}\in \mathcal{X}^{i}}^{{}}p(x_{1},\cdots,x_{i}) \log p(x_{i}|x_{i-1},\cdots,x_{1}) = \sum_{i=1}^{{n}}H(X_{i}|X_{i-1},\cdots,X_{1})H(X1?,X2?,?,Xn?)=?∑x1?,?,xn?∈Xn?p(x1?,?,xn?)logp(x1?,?,xn?)=?∑x1?,?,xn?∈Xn?p(x1?,?,xn?)logp(x1?,?,xn?1?)p(xn?∣x1?,?,xn?1?)=?∑x1?,?,xn?∈Xn?p(x1?,?,xn?)logp(x1?,?,xn?2?)p(xn?1?∣x1?,?,xn?2?)p(xn?∣x1?,?,xn?1?)=?∑x1?,?,xn?∈Xn?p(x1?,?,xn?)log∏i=1n?p(xi?∣xi?1?,?,x1?)=?∑x1?,?,xn?∈Xn?p(x1?,?,xn?)∑i=1n?logp(xi?∣xi?1?,?,x1?)=?∑i=1n?∑x1?,?,xi?∈Xi?p(x1?,?,xi?)logp(xi?∣xi?1?,?,x1?)=∑i=1n?H(Xi?∣Xi?1?,?,X1?)
注: ?∑i=1n∑x1,? ,xi∈Xip(x1,? ,xi)log?p(xi∣xi?1,? ,x1)-\sum_{i=1}^{n} \sum_{x_{1},\cdots,x_{i}\in \mathcal{X}^{i}}^{{}}p(x_{1},\cdots,x_{i}) \log p(x_{i}|x_{i-1},\cdots,x_{1})?∑i=1n?∑x1?,?,xi?∈Xi?p(x1?,?,xi?)logp(xi?∣xi?1?,?,x1?) 這一步變換也是使用了邊緣化。
從鏈式法則,我們可以更進一步得到,如果隨機變量 X1,X2,? ,XnX_{1},X_{2},\cdots,X_{n}X1?,X2?,?,Xn? 是獨立的,那么聯合熵則可以表示為:
H(X1,X2,? ,Xn)=∑i=1nH(Xi)H(X_{1},X_{2},\cdots,X_{n})= \sum_{i=1}^{{n}}H(X_{i})H(X1?,X2?,?,Xn?)=∑i=1n?H(Xi?)
總結
- 上一篇: matlab 产生瑞利信道,瑞利信道仿真
- 下一篇: 正态分布推导瑞利分布,瑞利信道的模型