数学之美(二)
總第75篇
本篇為數學之美連載篇二,你還可以看:數學之美(一)
11|矩陣運算與文本處理:
無論是詞匯的聚類還是文本的分類,都可以通過線性代數中的奇異值分解來進行,這樣自然語言的處理問題就變成了數學問題。
我們在前面講過利用余弦定理去對新聞進行分類,這種方法需要對所有新聞做兩兩的計算,而且要進行很多次迭代,耗時會特別長,尤其是當新聞的數量很大且詞表也很大的時候,所以我們就在想,有沒有一種辦法可以一次性把所有的新聞相關性計算出來。這種方法就是奇異值分解,簡稱SVD。
奇異值分解是將一個大矩陣分解成三個小矩陣相乘
其中這個大矩陣行表示文章,即每一篇對應一篇文章,每一列對應文章中的一個詞。三個小矩陣的第一個小矩陣是對詞進行分類的一個結果。他的每一行表示一個詞,每一列表示一個語義相近的詞類,這一行的每個非零元素表示這個詞在每個語義類中的重要性(或相關性),數值越大越相關。
最后一個矩陣是對文本的分類結果,他的每一列對應一篇文本,每一行對應一個主題。
中間的矩陣表示詞的類和文章的類之間的相關性。
余弦分類和奇異值分類兩種方法的優缺點:
奇異值分解的優點是能夠快速得到結果,但是結果較為粗糙,適合于大規模文本的初分類。而余弦分類計算較慢,結果較為準確,在實際應用中可以先進行奇異值分解得到粗分類結果,再利用向量余弦在粗分類的基礎上進行迭代。
12|信息指紋及其應用:
信息指紋和人類指紋是一樣的道理,人與人之間是不存在相同指紋的,所以可以用指紋來辨別某個人。而每條信息(視頻、文字、音頻等內容)也會有自己所特有的表征信息,這就是信息指紋。
信息指紋最常見的應用就是反盜版,通過對比原創和非原創的信息指紋即可。
13|搜索引擎反作弊和搜索結果權威性:
搜索引擎的反作弊是因為有人針對搜索引擎作弊,而這些作弊的人看到了搜索引擎的排名,好的排名就可以獲得好的流量就可以獲得好的商業價值。在前面的章節說過,排名與網站的本身的質量度(即指向這個網頁的其他網頁的次數)有關。所以就有人抓住這個點,販賣鏈接,對質量度進行干擾。而反作弊就是找到這些作弊的(噪聲),然后把他們的這些虛假質量度去掉,就是正常的排名情況。
搜索引擎的權威性
在前面的章節中我們有提到搜索引擎的相關性,就是指搜索詞與目標網頁的相關程度。而權威性是用來反應目標網頁的可信程度,用權威度來衡量。
計算權威度的步驟:
1、對每一個網頁正文(包括標題)中的每一句進行句法分析,然后找到涉及主題的短語(比如吸煙有害健康)以及對信息來源(比如國際衛生組織)的描述。
2、利用互信息,找到主題短語和信息源的相關性。
3、對主題短語進行聚合,把相同意思,不同表達方式的詞語進行整合,其實和新聞分類類似,把相同主題的聚集成一類。(比如吸煙的危害和煤焦油的危害),采用矩陣運算即可。
4、對網站內容進行聚合,有一些是與主題有關的,有一些是無關的。
14|邏輯回歸和搜索廣告:
邏輯回歸主要被用來預測用戶可能會點擊哪些廣告。就是我們常聽說的點擊率預測。預測的原理把用戶的一些信息(搜索詞,性別,地域,身份等信息)當做回歸參數,然后去預測該用戶點擊哪種廣告的可能性較大,然后去顯示哪種廣告。
15|各個擊破算法:
對于一些計算量較大的問題,我們將其分解成若干小問題,單獨運行,最后進行合并即可,也就是所謂的分布式運算,對于這種算法現在已經有現成的平臺-mapreduce。
總結
- 上一篇: “好吃才是王道”
- 下一篇: 付费会员该在截止日当天几点过期?法院判了