信息论中的熵
導論
熱力學中的熵:是表示分子狀態混亂程度的物理量。
信息論中的熵:用來描述信源的不確定性大小(信息論創始人香農借用了熱力學中熵的概念)。
目前在機器學習、深度學習中經常看到與熵有關的概念。
經常使用的熵概念有下列幾種:
信息熵(本節內容)
交叉熵
相對熵
條件熵
互信熵
熵和信息的區別
此刻的你接受著我所產生的文字、圖片,但你知道我所傳遞的內容并不是這些媒介本身,而是信息。我們時時刻刻都在獲取信息、討論信息,然而到底什么是信息?
What’s information?
**香農認為信息是用來消除隨機不確定性的東西。**當一隨機變量(宏觀態)有多種可能事件(微觀態)時,該隨機變量(宏觀態)對某人(觀察者)而言,具體是哪種事件(微觀態)的不確定性叫做熵,而能夠消除該人對該隨機變量(宏觀態)不確定性的事物叫做信息。熵和信息數量相等,意義相反,獲取信息意味著消除不確定性(熵)
信息的不確定性如何度量?
信源信息的不確定函數 f 通常滿足兩個條件:
1)概率p的單調遞減函數;
2)兩個獨立符號所產生的不確定性應等于各自不確定性之和,即
(可加性)
對數函數同時滿足這兩個條件,因此我們用對數函數來衡量這種不確定性,即
據此,我們給出信息熵的定義:要考慮信源所有可能發生情況的不確定性,若信源符號有n種取值:
對應概率為:
且各種出現彼此獨立。此時信源的平均不確定性應為單個符號不確定性-log pi的統計平均值(E),稱為信息熵。
例如,當小明不會某道數學選擇題時(正確答案為C),正確答案(宏觀態)為A、B、C、D(4個微觀態)哪個選項的不確定性就是就是熵。
宏觀態是不考慮內部細節的狀態,而微觀態是考慮具體細節的狀態,比如生物是宏觀態,動物、植物都是生物這個宏觀態的微觀態。
熵在A、B、C、D所有可能情況(宏觀態)都是等概率事件(25%)時,最大;在確定了C(實際事件)是100%后最小。
能消除不確定性的信息有三種類型,他們的本質都是正確調整了每個可能事件(微觀態)的概率。
比如,小紅告訴小明,有一半的可能性選C
又比如,小紅告訴小明D選項是錯的
小紅告訴小明正確答案是C,是將C選項的概率調整到了100%
小紅告訴小明肯定是ABCD里的一項
小紅告訴小明答案是D(正確答案是C)
那些不能消除某人對某件事情的不確定性的事情被稱作噪音,噪音是信息獲取的干擾。
數據=噪音+信息 需要用知識將其分離
同意觀察者,對同一件事情接收到的信息與傳遞信息的信號形式無關。比如小紅將寫有C的紙條傳給小明,提供的信息是2 bits;小紅直接告訴小明答案是C,提供的也是2 bits;小紅搖晃小明的椅子3次,提供的信息也是2 bits。
概率和熵
概率是某隨機變量(宏觀態)某個可能事件(微觀態)的確定性,而熵是某隨機變量(宏觀態)到底是哪個情況(微觀態)的不確定性。最為重要的一點,信息描述的是一個觀察者確定一個宏觀態是哪個微觀態時需要的物理量,所以信息是相對的。接收到的信息是相對于觀察者對該隨機變量的了解程度(已知)而言的。小紅會這道題,不管告不告訴,小紅這道題的正確答案是C,小紅對這道題的熵都是0 bit,因為觀察者已經擁有了對隨機變量的所有信息,不確定性從一開始就不存在;小明不會這道題(由4個等概率情況里確定),熵為2 bits,熵最大;小虎知道D是錯的,熵為1.58 bits,因為觀察者擁有關于該隨機變量的部分信息,熵略小。
雖然信息是相對于觀察者而言的,但信息是客觀存在的,不隨觀察者的主觀意識而改變,比如小虎認為C是錯的,熵不會減少(臆想不會減熵),因為“主觀認為C是錯的”,并沒有實際幫助小虎消除隨機變量的不確定性。
“太陽從東邊升起”,對于知道的人而言提供了0 bit信息,對于指導或東或西升起的人而言提供了1 bit信息,對覺得東南西北都有可能的人而言,提供了2 bits信息。
總結
- 上一篇: 徐俊明《图论及其应用》教学大纲
- 下一篇: 图论知识及其应用初步调研