信息论(信息熵)
在信息論中,熵表示的是平均不確定性的量度。信息論的創(chuàng)始人香農(nóng)在其著作《通信的數(shù)學(xué)理論》中提出了建立在概率統(tǒng)計(jì)模型上的信息度量。他把信息定義為“用來消除不確定性的東西”。 熵在信息論中的定義如下: 如果有一個(gè)系統(tǒng)?內(nèi)存在多個(gè)事件?, 每個(gè)事件的機(jī)率分布?,則每個(gè)事件本身提供的信息量為 稱為自信息。 (若對數(shù)函數(shù)以2為底,單位是比特(bit);若對數(shù)函數(shù)以e為底,單位為奈特(nat);若對數(shù)函數(shù)以10為底,單位為哈特(hartly)。) 如英語有26個(gè)字母,假如每個(gè)字母在文章中出現(xiàn)次數(shù)平均的話,每個(gè)字母的信息量為 而漢字常用的有2500個(gè),假如每個(gè)漢字在文章中出現(xiàn)次數(shù)平均的話,每個(gè)漢字的信息量為 這些事件的自信息的均值: 稱為熵。 則,所有字母的平均信息量為 則,常用漢字的平均信息量為 這個(gè)平均消息量就是消息熵。因?yàn)楹蜔崃W(xué)中描述熱力學(xué)熵的玻耳茲曼公式形式一樣,所以也稱為“熵”。 如果兩個(gè)系統(tǒng)具有同樣大的消息量,如一篇用不同文字寫的同一文章,由于是所有元素消息量的加和,那么中文文章應(yīng)用的漢字就比英文文章使用的字母要少。所以漢字印刷的文章要比其他應(yīng)用總體數(shù)量少的字母印刷的文章要短。即使一個(gè)漢字占用兩個(gè)字母的空間,漢字印刷的文章也要比英文字母印刷的用紙少。 實(shí)際上每個(gè)字母和每個(gè)漢字在文章中出現(xiàn)的次數(shù)并不平均,因此實(shí)際數(shù)值并不如同上述,但上述計(jì)算是一個(gè)總體概念。
轉(zhuǎn)載于:https://www.cnblogs.com/javaleon/p/4303631.html
總結(jié)
- 上一篇: 计算机网络之数据链路层:16、无线局域网
- 下一篇: 前端基础-html-视频标签的介绍