搜索与机器学习
搜索與機器學習
(2012-03-23 20:34:30) 轉載▼標簽: 搜索信息檢索機器學習 | 分類: 科研介紹 |
中國計算機學會《技術動態》人工智能專題。http://www.ccf.org.cn/sites/ccf/rgzn.jsp
?
今年是圖靈誕辰100周年。如果圖靈在世的話,他會驚喜地發現互聯網搜索引擎已經能在自己當年設計的人工智能測試上取得相當好的成績,因為在主要的搜索引擎上提出各種各樣的問題,比如“理想國的作者?”或者“從知春路到清華東門怎么坐公交車?”,都能找到正確的答案。毫無疑問,互聯網搜索引擎已成為當今最為實用、最具代表性的智能系統。
?
1.互聯網搜索技術
據統計,約有60%的互聯網用戶每天至少使用一次搜索引擎,約有90%的互聯網用戶每周至少使用一次搜索引擎。搜索引擎已經成為人們訪問互聯網的必經通道。對一般用戶來說,除了搜索,沒有其他手段可以幫助更方便地獲得網上的信息。
?
圖1. 互聯網搜索引擎架構圖
?
搜索引擎能看到萬億(trillion)量級的URL,需要成千上萬臺的計算機抓取、分析、索引網頁;每天有幾十億的用戶查詢,需要將最相關、最新、最全的結果提供給用戶。互聯網搜索的發展取決于軟件、硬件、系統等多方面的計算機技術的研發與創新。
?
圖1是互聯網搜索引擎的架構示意圖。簡單地說,搜索引擎由抓取器、索引器、排序器、用戶界面組成。抓取器從互聯網上抓取網頁,將垃圾網頁過濾;索引器分析網頁的內容,計算網頁的重要度,將網頁索引;用戶界面接受查詢語句,分析查詢語句的內容;排序器從索引中檢索出含有查詢詞的網頁,實行查詢語句與網頁的匹配,將網頁按相關度、重要度等進行排序;用戶界面將排序結果展示給用戶,同時收集用戶搜索行為數據。
?
可以認為互聯網搜索主要建立在兩大領域的技術之上,即大規模分布式計算與統計機器學習。搜索引擎的規模巨大,必須采用大規模分布式處理。搜索屬于智能處理,必定是數據驅動,基于統計機器學習的。
?
從使用的數據,以及相關的技術的觀點來看,互聯網搜索經歷了三代的發展歷程。第一代搜索,將互聯網網頁看作文本,采用傳統信息檢索的方法。第二代搜索,利用互聯網的超文本結構,有效地計算網頁的相關度與重要度,代表的算法有PageRank。第三代搜索,有效利用日志數據與統計學習,使網頁相關度與重要度計算的精度有了進一步的提升,代表的技術包括排序學習、網頁重要度學習、匹配學習、話題模型學習、查詢語句轉化學習。
?
2.機器學習在互聯網搜索中的應用
下面介紹一些基于統計機器學習的最前沿的互聯網搜索技術。
?
排序學習
對給定的查詢語句,將檢索到的網頁進行排序是排序學習的任務。排序學習將此問題形式化為監督學習的問題,將網頁表示為特征向量,其中特征表示網頁與查詢語句的匹配程度或網頁的重要度,基于標注數據學習一個排序模型。現在最常用的方法是LambdaMART [1]。該方法將排序問題轉換為二類分類問題,利用Boosting算法優化學習目標函數。其最大特點是不顯示地定義損失函數,而定義損失函數的梯度函數,以解決排序損失函數不易優化的問題。其他代表的排序學習方法還有Rank SVM [5]、 IR SVM [2]、AdaRank [10]等。
?
網頁重要度學習
網頁重要度學習旨在計算出每個網頁的重要度,排序時將重要的網頁盡量排在前面。傳統的網頁重要度計算基于超鏈接與PageRank算法。直觀上,有許多鏈接指向的網頁重要,網頁的重要度可以通過鏈接在網上傳播;PageRank用馬爾可夫模型實現這一直觀。可以認為最近提出的BrowseRank算法 [6]是PageRank算法的擴展與補充。BrowseRank首先根據用戶行為數據構建用戶瀏覽圖。然后再在用戶瀏覽圖上定義連續時間馬爾可夫過程,用其平穩分布表示網頁的重要度。直觀上,用戶在網頁上平均停留時間越長,網頁就越重要;轉移到網頁的次數越高,網頁就越重要。基于用戶的互聯網使用行為數據,BrowseRank能夠更好地計算網頁重要度。
?
匹配學習
查詢語句與網頁的相關性靠兩者的匹配程度決定,匹配結果直接影響搜索結果。比如,查詢“ny times”應與含有“new york times”的網頁匹配。理想的匹配應該是語義上的匹配,而不是關鍵字上的匹配。匹配學習的目的在于將字面上并不相同,但語義相同的查詢語句與網頁匹配上,將語義相關的網頁排在搜索結果的前面。代表的方法有翻譯模型 [3]與隱空間模型 [9]。日志數據中記錄了用戶點擊。比如用戶搜索“ny”,因為既含有“ny”又含有“new york”的網頁會被搜到,所以兩者通過用戶搜索中的點擊得以聯系。隱空間模型方法基于點擊數據將查詢語句與網頁投影到隱空間,在隱空間中學習到查詢語句與網頁之間的相似度,也就是匹配關系,進而能對新的查詢語句與網頁的匹配程度作出判斷。比如,學到“ny”與“new york”的相似度,判斷“ny times”與“new york times”是可以匹配的。
?
話題模型學習
查詢語句與網頁應該在話題上也能匹配,比如,查詢語句是“jaguar car”,那么關于jaguar汽車的網頁是與查詢相關的,而關于動物jaguar的網頁即使含有jaguar與car這兩個字,往往也是不相關的。話題模型學習旨在自動從索引網頁中抽出所有可能的話題,以及每個網頁的話題,以便在搜索時,進行查詢語句與網頁在話題上的匹配。話題模型學習的方法很多,有概率方法,如PLSI、LDA,也有非概率方法,如LSI、NMF、RLSI。互聯網搜索需要處理大規模網頁數據,最近提出的RLSI [7] 方法有很好的擴展性、能夠在大規模網頁數據上進行高效的話題模型學習。
?
查詢語句轉換學習
10-15%的英文查詢語句含有拼寫錯誤;中文查詢語句中含有許多拼音漢字轉換錯誤,如“新浪”被誤轉換為“新郎”。除此之外,查詢語句中還有許多不規范、不準確的表述。搜索引擎一般能夠自動糾正拼寫等錯誤,將不正確的查詢語句轉換為正確的查詢語句。代表的方法有CRF-QF [3]、LogLinear [8]等。例如,LogLinear方法從日志數據中收集大量的含有拼寫錯誤的查詢語句,以及相應的正確的查詢語句,從中提取轉換規則,自動學習拼寫轉換的對數線形模型。搜索時,對新的查詢語句試用各種轉換規則,根據對數線形模型,找出最有可能的轉換,即糾正,如果轉換的概率足夠大,就對查詢語句實施轉換。
?
3.互聯網搜索的挑戰與機遇
幫助用戶盡快、盡準、盡全地找到信息,從本質上需要對用戶需求(查詢語句),以及互聯網上的文本、圖像、視頻等多種數據的內容進行“理解”。也就是要解決人工智能的挑戰。這種意義上,互聯網搜索永遠需要面對且克服這一挑戰。
?
互聯網搜索遵循冪率分布,有頭部查詢(高頻查詢)與尾部查詢(低頻查詢)。人工智能挑戰在尾部與頭部體現出不同的特點。
?
回到圖靈測試。也許經過幾輪測試,圖靈就會發現互聯網搜索對頭部的查詢能給出很好的結果,但是對尾部的查詢結果常常不很理想。互聯網搜索主要還是基于關鍵字匹配。因為尾部查詢沒有足夠多的信號,比如點擊數據,有時查詢語句與網頁不能有很好的匹配,搜索引擎無法做出正確的相關度判斷。匹配學習能解決一部分問題,但是還有很長的路要走。
?
另一方面,頭部查詢的結果往往會很多,雖然相關,但是用戶會感到難于掌握全貌。如何將這些結果進行摘要總結變成另一個挑戰。問題也需要內容的理解,同樣是極其困難的任務。
?
4.搜索的發展趨勢
過去10多年里,互聯網搜索是搜索中的“主戰場”。但是可以預見,今后10年,搜索的重點將從互聯網搜索逐漸轉移到移動搜索。搜索技術也會發生革命性的變化,產生范式轉移(paradigm shift)。新一代的搜索應該有以下幾個特點:移動、多樣化、任務指向、自然與個性化。
?
移動中的搜索
雖然在臺式機、智能手機、平板電腦、電視屏幕等各種終端上的搜索都會增加,但是搜索的主要終端將從臺式機轉變為智能手機、平板電腦等移動設備。通過語音與觸摸屏的搜索會更加普遍。
?
多樣化的搜索
搜索的內容也將從互聯網網頁,轉變為多種信息的融合。具體表現如下。跨越信息種類,可以統一搜索文本、圖片、視頻、圖表、實體;跨越信息源,可以同時搜索互聯網、社區網、社會媒體、數據庫的信息;跨越樣式,可以通過文字、語音、圖片搜索;跨越語言,可以用一種語言搜索其它語言。
?
任務指向的搜索
搜索會幫助用戶直接完成某項任務,比如,訂機票、買家具。搜索與終端上的應用的結合會極大改變用戶體驗。
?
自然的搜索
搜索會變得更加自然,搜索引擎會變成用戶的“信息仆人”。用戶可以用自己認為最自然的方式搜索,比如,關鍵詞、自然語言問句、以及其組合。搜索會越來越像問答系統。搜索將不會是“一錘子買賣”,而是與用戶的交互。
?
個性化的搜索
搜索會根據不同的用戶提供不同的內容,“投其所好”。從用戶的社會網絡、地理位置、行為紀錄會得到更多信息幫助加深對用戶的理解,使個性化搜索變得更加可能。
?
5.結束語
可以看出統計機器學習在搜索中起著舉足輕重的作用。事實上,互聯網搜索引擎所展現的不是個體智慧,而是群體智慧。 能回答文獻作者、公交車路線等問題是因為網上有大量的內容數據,搜索引擎積累了大量的用戶行為數據,而搜索引擎能夠通過機器學習有效地將這些數據聯系、組織、利用起來,在大規模的分布式計算平臺上為用戶提供服務。互聯網搜索如此,今后的移動搜索亦將是如此。
?
圖靈誕辰200周年的時候,搜索會變成什么樣,我們無法具體想像。但是有一點是肯定的,搜索會越來越接近通過圖靈測試的目標。
?
6.參考文獻
[1] Burges, From RankNet to LambdaRank to LambdaMART, MSR-TR-2010-82.
[2] Cao et al., Adapting Ranking SVM to Document Retrieval, SIGIR 2006.
[3] Gao et al., Click-through-based Translation Models for Web Search: from Word Models to Phrase Models. CIKM 2010.
[4] Guo et al., A Unified and Discriminative Model for Query Refinement. SIGIR, 2008.
[5] Herbrich et al., Large Margin Rank Boundaries for Ordinal Regression, Advances in Large Margin Classifiers, 2000.
[6] Liu et al., BrowseRank: Letting Users Vote for Page Importance, SIGIR 2008.
[7] Wang, et al., Regularized Latent Semantic Indexing, SIGIR 2011.
[8] Wang, et al., A Fast and Accurate Method for Approximate String Search, ACL-HLT, 2011.
[9] Wu, et al., Learning Query and Document Similarities from Click-through Bipartite Graph with Metadata. Microsoft Research Technical Report, 2011.
[10] Xu and Li, AdaRank: A Boosting Algorithm for Information Retrieval, SIGIR 2007.
總結
- 上一篇: 开源后5个月,Google的深度学习都有
- 下一篇: 基于大数据与深度学习的自然语言对话