数学之美 系列七 -- 信息论在信息处理中的应用
生活随笔
收集整理的這篇文章主要介紹了
数学之美 系列七 -- 信息论在信息处理中的应用
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
數(shù)學(xué)之美 系列七 -- 信息論在信息處理中的應(yīng)用
?
http://googlechinablog.com/2006/05/blog-post_25.html
?
?
我們已經(jīng)介紹了信息熵,它是信息論的基礎(chǔ),我們這次談?wù)勑畔⒄撛谧匀徽Z言處理中的應(yīng)用。先看看信息熵和語言模型的關(guān)系。我們在系列一中談到語言模型時,沒有講如何定量地衡量一個語言模型的好壞,當(dāng)然,讀者會很自然地想到,既然語言模型能減少語音識別和機(jī)器翻譯的錯誤,那么就拿一個語音識別系統(tǒng)或者機(jī)器翻譯軟件來試試,好的語言模型必然導(dǎo)致錯誤率較低。這種想法是對的,而且今天的語音識別和機(jī)器翻譯也是這么做的。但這種測試方法對于研發(fā)語言模型的人來講,既不直接、又不方便,而且很難從錯誤率反過來定量度量語言模型。事實(shí)上,在賈里尼克(Fred Jelinek)的人研究語言模型時,世界上既沒有像樣的語音識別系統(tǒng),更沒有機(jī)器翻譯。我們知道,語言模型是為了用上下文預(yù)測當(dāng)前的文字,模型越好,預(yù)測得越準(zhǔn),那么當(dāng)前文字的不確定性就越小。
信息熵正是對不確定性的衡量,因此信息熵可以直接用于衡量統(tǒng)計(jì)語言模型的好壞。賈里尼克從信息熵出發(fā),定義了一個稱為語言模型復(fù)雜度(Perplexity)的概念,直接衡量語言模型的好壞。一個模型的復(fù)雜度越小,模型越好。李開復(fù)博士在介紹他發(fā)明的 Sphinx 語音識別系統(tǒng)時談到,如果不用任何語言模型(即零元語言模型)時,復(fù)雜度為997,也就是說句子中每個位置有 997 個可能的單詞可以填入。如果(二元)語言模型只考慮前后詞的搭配不考慮搭配的概率時,復(fù)雜度為 60。雖然它比不用語言模型好很多,但是和考慮了搭配概率的二元語言模型相比要差很多,因?yàn)楹笳叩膹?fù)雜度只有 20。
信息論中僅次于熵的另外兩個重要的概念是“互信息”(Mutual Information) 和“相對熵”(Kullback-Leibler Divergence)。
“互信息”是信息熵的引申概念,它是對兩個隨機(jī)事件相關(guān)性的度量。比如說今天隨機(jī)事件北京下雨和隨機(jī)變量空氣濕度的相關(guān)性就很大,但是和姚明所在的休斯敦火箭隊(duì)是否能贏公牛隊(duì)幾乎無關(guān)?;バ畔⒕褪怯脕砹炕攘窟@種相關(guān)性的。在自然語言處理中,經(jīng)常要度量一些語言現(xiàn)象的相關(guān)性。比如在機(jī)器翻譯中,最難的問題是詞義的二義性(歧義性)問題。比如 Bush 一詞可以是美國總統(tǒng)的名字,也可以是灌木叢。(有一個笑話,美國上屆總統(tǒng)候選人凱里 Kerry 的名字被一些機(jī)器翻譯系統(tǒng)翻譯成了"愛爾蘭的小母牛",Kerry 在英語中另外一個意思。)那么如何正確地翻譯這個詞呢?人們很容易想到要用語法、要分析語句等等。其實(shí),至今為止,沒有一種語法能很好解決這個問題,真正實(shí)用的方法是使用互信息。具體的解決辦法大致如下:首先從大量文本中找出和總統(tǒng)布什一起出現(xiàn)的互信息最大的一些詞,比如總統(tǒng)、美國、國會、華盛頓等等,當(dāng)然,再用同樣的方法找出和灌木叢一起出現(xiàn)的互信息最大的詞,比如土壤、植物、野生等等。有了這兩組詞,在翻譯 Bush 時,看看上下文中哪類相關(guān)的詞多就可以了。這種方法最初是由吉爾(Gale),丘奇(Church)和雅讓斯基(Yarowsky)提出的。
當(dāng)時雅讓斯基在賓西法尼亞大學(xué)是自然語言處理大師馬庫斯 (Mitch Marcus) 教授的博士生,他很多時間泡在貝爾實(shí)驗(yàn)室丘奇等人的研究室里。也許是急于畢業(yè),他在吉爾等人的幫助下想出了一個最快也是最好地解決翻譯中的二義性,就是上述的方法,這個看上去簡單的方法效果好得讓同行們大吃一驚。雅讓斯基因而只花了三年就從馬庫斯那里拿到了博士,而他的師兄弟們平均要花六年時間。
信息論中另外一個重要的概念是“相對熵”,在有些文獻(xiàn)中它被稱為成“交叉熵”。在英語中是 Kullback-Leibler Divergence,是以它的兩個提出者庫爾貝克和萊伯勒的名字命名的。相對熵用來衡量兩個正函數(shù)是否相似,對于兩個完全相同的函數(shù),它們的相對熵等于零。在自然語言處理中可以用相對熵來衡量兩個常用詞(在語法上和語義上)是否同義,或者兩篇文章的內(nèi)容是否相近等等。利用相對熵,我們可以得出信息檢索中最重要的一個概念:詞頻率-逆向文檔頻率(TF/IDF)。我們下回會介紹如何根據(jù)相關(guān)性對搜索出的網(wǎng)頁進(jìn)行排序,就要用的上TF/IDF 的概念。另外,在新聞的分類中也要用到相對熵和TF/IDF。
對信息論有興趣又有一定數(shù)學(xué)基礎(chǔ)的讀者,可以閱讀斯坦福大學(xué)托馬斯.科弗 (Thomas Cover) 教授的專著 "信息論基礎(chǔ)"(Elements of Information Theory):
http://www.amazon.com/gp/product/0471062596/ref=nosim/103-7880775-7782209?n=283155
http://www.cnforyou.com/query/bookdetail1.asp?viBookCode=17909
科弗教授是當(dāng)今最權(quán)威的信息論專家。
?
總結(jié)
以上是生活随笔為你收集整理的数学之美 系列七 -- 信息论在信息处理中的应用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数学之美系列六 -- 图论和网络爬虫 (
- 下一篇: 数学之美 系列八-- 贾里尼克的故事和现