数学之美(一)
總第73篇
本篇為書籍《數(shù)學(xué)之美》的一部分讀書筆記,分兩篇來完成,只摘錄了書中我個人認(rèn)為重要的、典型的部分章節(jié)的部分內(nèi)容分享出來,有興趣的可以自己買來看看。
01|文字和語言vs數(shù)字和信息:
1、數(shù)字、文字和自然語言一樣,都是信息的載體,而語言和數(shù)學(xué)的產(chǎn)生是為了記錄和傳播信息。
2、通信模型
發(fā)出者發(fā)出的信息源先編碼然后經(jīng)過信道傳輸給接收者,接受者進(jìn)行解碼以后獲得發(fā)出者的信息。
在通信時如果信道較寬,信息不必壓縮可以直接傳遞,如果信道很窄,信息傳遞之前需要盡可能壓縮,然后在接受端進(jìn)行解壓縮。
3、文字的歧義
對于一些多義字,我們不知道他在特定的環(huán)境下的含義,這樣就有可能造成歧義。解決這種問題最好的方法就是聯(lián)系上下文,來判斷這個字在該環(huán)境下的真實(shí)意思是什么。
4、關(guān)于翻譯
翻譯這件事之所以能夠完成,是因?yàn)椴煌奈淖衷谟涗浶畔⒎矫娴哪芰κ堑葍r的,也可以理解成文字只是信息的載體,而非信息本身。(這就是為啥英文和漢字表達(dá)的信息可以是一樣的)
5、為什么現(xiàn)在用的是十進(jìn)制而不是其他
因?yàn)樵缙谌祟愑?jì)數(shù)是通過數(shù)指頭,人類只有十根手指,所以就用的十。
02|自然語言處理從規(guī)則到統(tǒng)計(jì):
1、因?yàn)槲覀內(nèi)祟愒趯W(xué)習(xí)一種新的語言時經(jīng)常會以語法作為我們第一個學(xué)習(xí)的知識,所以當(dāng)我們在處理自然語言的時候也會慣性的朝這個方向去思考,但是這種是不可行的,因?yàn)閷τ诙叹渥舆€可以湊合著用,但是一旦句子長度變長以后計(jì)算程度就會變得很復(fù)雜,是行不通的。
基于規(guī)則的處理就是上圖那樣。
2、基于統(tǒng)計(jì)的自然語言處理的核心模型是通信系統(tǒng)加隱含馬爾可夫模型(后面會提到馬爾科夫假設(shè))。
03|統(tǒng)計(jì)語言模型:
1、自然語言從它產(chǎn)生開始,逐漸演變成一種上下文相關(guān)的信息表達(dá)和傳遞的方式,因此讓計(jì)算機(jī)處理自然語言,一個基本的問題就是為自然需要這種上下文相關(guān)的特性建立數(shù)學(xué)模型,又稱為統(tǒng)計(jì)語言模型。
2、統(tǒng)計(jì)語言模型的產(chǎn)生是為了解決語音識別的問題,在語音識別中,計(jì)算機(jī)需要知道一個文字序列是否能構(gòu)成一個大家理解而且有意義的句子,然后輸出給使用者。如果是基于規(guī)則分析的話就如前一章提到的,會去分析句子的語義和規(guī)則是否符合。但是前面說過這種是行不通的。
3、一個名叫賈尼克的專家提出了“一個句子是否合理,就看他的可能性大小如何”,也就是各個詞排列順序出現(xiàn)的可能性,至于可能性的話可以用概率衡量。
4、如果按第三條提到的去計(jì)算概率的話,需要計(jì)算第一個詞以后每一個的條件概率然后相乘,但是這種遇到了同樣的問題,如果句子過長,詞數(shù)過多,計(jì)算起來就會很復(fù)雜。
5、針對上面第四條所面臨的問題,一個名叫馬爾可夫的科學(xué)家提出了一個假設(shè),“假設(shè)任意一個詞的出現(xiàn)的概率只與同他前面的與他緊挨著的詞有關(guān)”,我們把這個假設(shè)稱為馬爾可夫假設(shè)。而在計(jì)算概率的時候只需要計(jì)算該詞在語料庫出現(xiàn)的相對頻度即可。
6、上面第五條會有一個問題就是一個詞在詞庫中出現(xiàn)的次數(shù)很少,也就是幾乎接近于零,這樣他的概率就是零概率。遇到這種問題我們該怎么處理,科學(xué)家古德-圖靈提出了一種方案,即對這種概率越小的詞繼續(xù)減小他的概率。根據(jù)Zipf定理,即下圖。
次數(shù)越多的詞越少,我們?yōu)榱藴p小這些小概率的詞出現(xiàn)的概率,就增加他的次數(shù)。一般情況下對出現(xiàn)次數(shù)超過某個值的詞不做概率下調(diào),只有出現(xiàn)次數(shù)低于某個值的詞才會對其做概率下調(diào)。
04|談?wù)劮衷~:
1、中文分詞方法
在第三章我們知道了自然語言處理的統(tǒng)計(jì)模型,即正確語義順序應(yīng)該是看哪種排列順序出現(xiàn)的概率大就用哪種。分詞也是同樣的道理,保證分詞后這個句子出現(xiàn)的概率最大,就是最佳的分詞效果。
05|信息的度量和作用:
1、什么是信息熵
信息熵是用來度量(量化)信息的,一條信息的信息量與其不確定性有著直接的聯(lián)系,當(dāng)我們需要了解清楚一件非常不確定的事情的時候,我們需要了解大量的信息。反之,當(dāng)我們對一件事了解較多的時候,則不需要太多的信息就能把他搞清楚。從這個角度來看,信息量(熵)就等于不確定性的大小。
科學(xué)家香農(nóng)提出了用不確定事件的概率乘他的log的對數(shù)來量化信息熵。
2、信息的作用
在前面提到過,信息量就等于不確定性的大小,而信息的作用就是為了消除不確定性,很多時候我們應(yīng)該做的是尋找更多的相關(guān)信息去消除不確定性,而不是在很少或不相關(guān)的信息下面利用什么算法去計(jì)算,本質(zhì)上沒什么效果。
3、互信息
在第2小節(jié)中提到,我們應(yīng)該尋找更多的相關(guān)信息來降低某件事情的不確定性,這里的這個相關(guān)信息我們還怎么理解,哪種程度叫相關(guān)呢,哪種程度叫不相關(guān)呢。科學(xué)家香弄提出了一個“互信息”的概念用來度量兩個隨機(jī)事件的“相關(guān)性”。
4、相對熵
相對熵也用來衡量相關(guān)性,但和變量的互信息不同,它用來衡量兩個取值為正數(shù)嗯函數(shù)的相關(guān)性,相對熵越小,說明兩個信號越接近。
在自然語言處理中常用來衡量兩個常用詞在不同文本中的概率分布,看他們是否同義。還可以利用相對熵得到信息檢索中最重要的一個概念:詞頻率-逆向文檔頻率(TF-IDF)。
06|布爾代數(shù)和搜索引擎
1、搜索引擎的原理:
建立一個搜索引擎的大致流程是自動下載盡可能多的網(wǎng)頁;建立快速有效的索性(這里的索性類似于圖書館的索性,圖書館里面每本書代表一個網(wǎng)頁,那些分類索性和搜索這里的索性是一致的);根據(jù)相關(guān)性對網(wǎng)頁進(jìn)行合理的排序。
07|圖論和網(wǎng)絡(luò)爬蟲:
1、圖論
圖論〔Graph Theory〕是數(shù)學(xué)的一個分支。它以圖為研究對象。圖論中的圖是由若干給定的點(diǎn)及連接兩點(diǎn)的線所構(gòu)成的圖形,這種圖形通常用來描述某些事物之間的某種特定關(guān)系,用點(diǎn)代表事物,用連接兩點(diǎn)的線表示相應(yīng)兩個事物間具有這種關(guān)系。
2、網(wǎng)絡(luò)爬蟲
在前面的章節(jié)中說到搜索引擎的第一步就是下載盡可能多的網(wǎng)頁,這里就需要通過網(wǎng)絡(luò)爬蟲去獲取,但是在具體獲取的過程中以一種什么樣的順序去下載呢,這里主要利用兩種圖論中遍歷算法:BFS(廣度優(yōu)先搜索)和DFS(深度優(yōu)先搜索),兩者的區(qū)別是前者盡可能廣的訪問不同的節(jié)點(diǎn)(即更多的種類的網(wǎng)頁),而后者是盡可能深的訪問一個以后隱藏的更多節(jié)點(diǎn)內(nèi)容(一個網(wǎng)頁里面的超鏈接)。
08|網(wǎng)頁排名技術(shù)
1、網(wǎng)頁排名的核心原理
在前面說搜索引擎的三要素分別是下載網(wǎng)頁,建立索性,排名。排名的核心原理就是如果一個網(wǎng)頁被很多其他網(wǎng)頁所鏈接,說明他受到普遍承認(rèn)和信賴,那么他的排名就高(排名是用來說明網(wǎng)頁質(zhì)量度)。具體一點(diǎn)就是一個網(wǎng)頁的排名等于所有指向這個網(wǎng)頁的其他網(wǎng)頁的權(quán)重之和。而其他網(wǎng)頁的權(quán)重又等于其自身網(wǎng)頁的排名情況。
09|確定網(wǎng)頁和查詢的相關(guān)性
1、前面一章說到網(wǎng)頁的排名與該網(wǎng)頁的質(zhì)量度有關(guān),質(zhì)量度越高,排名越考前。排名除了與網(wǎng)頁質(zhì)量有關(guān)以外,還與查詢內(nèi)容與網(wǎng)頁內(nèi)容的相關(guān)性有關(guān)。
2、度量查詢與網(wǎng)頁內(nèi)容相關(guān)性
依據(jù)TF-IDF原理,TF-IDF等于TF*IDF,TF(Term-Frequency)中文意思是文字詞頻,就是該關(guān)鍵詞在目標(biāo)網(wǎng)頁中出現(xiàn)的頻率,計(jì)算方法為該關(guān)鍵詞在網(wǎng)頁中出現(xiàn)的次數(shù)比網(wǎng)頁總詞數(shù)。IDF(Inverse-Document-Frequency)中文意思是逆文本頻率指數(shù),通俗一點(diǎn)就是該關(guān)鍵詞的權(quán)重,計(jì)算方法為:log(全部網(wǎng)頁數(shù)/有關(guān)鍵詞的網(wǎng)頁數(shù))。
3、一個詞在越多的網(wǎng)頁中出現(xiàn),他對主題的預(yù)測能力越差,權(quán)重越小。對于一些語氣詞,比如的、是、和之類的詞對主題沒什么影響,我們把這一類詞叫做“停止詞(StopWord)”,這一類詞在計(jì)算相關(guān)性的時候不計(jì)算在內(nèi)。
10|余弦定理和新聞分類:
1、新聞的分類:
所謂分類,就是把相同類型的內(nèi)容放到一類,這里的重點(diǎn)就是如何辨別兩條新聞的類型是一樣的呢。在前面的章節(jié)我們學(xué)過TF-IDF用來判斷搜索詞與網(wǎng)頁的相關(guān)性,我們在這里也需要用到TF-IDF的概念,具體的操作方法是:計(jì)算出兩篇新聞中每個詞的TF-IDF值,然后把其按次表中對應(yīng)順序排好,這樣兩篇新文就變成了組數(shù)字(向量)。
根據(jù)余弦定理可得,兩個向量的余弦值越大,對應(yīng)的所成夾角越小,夾角越小,說明兩組向量挨的越近,文章越相似。反之亦然。
PS:
在后臺消息框回復(fù)數(shù)學(xué)之美,可獲得本書籍電子書鏈接。
總結(jié)
- 上一篇: 白色风扇消失,猫头鹰 Noctua 公布
- 下一篇: 比亚迪老对手发威!哈弗枭龙系列上市定档: