Google怎么做(1.相关提示)
/*版權聲明:可以任意轉載,轉載時請務必標明文章原始出處和作者信息 .*/
GOOGLE 的相關提示功能
?
中科院軟件所 張俊林
??? 2006年3月
?
在我以前發(fā)的帖子里面講過百度的相關提示功能是如何實現(xiàn)的,下面說說GOOGLE(http://googlechinablog.com/2006/04/blog-post_10.html)的相關提示如何實現(xiàn)的,你使用兩個搜索引擎并觀察一下兩個系統(tǒng)的相關提示就會發(fā)現(xiàn),GOOGLE的技術含量比百度高出很多.比如輸入查詢”劉翔”,GOOGLE的相關提示”足球”/”羅雪絹”/”姚明”/”田徑”等等,而百度的相關提示是:”劉翔圖片”/”劉翔簡介”等等.最大的區(qū)別是:百度的相關提示一定包含查詢本身,而GOOGLE的相關提示視野要開闊很多.那么GOOGLE是如何做的?
GOOGLE有計算用戶相似需求的算法,并且依據(jù)這個算法來對用戶進行相關提示.基本步驟如下:
(1)?? 得到用戶查詢LOG文件作為輸入,其中包含大量不同用戶提交給搜索引擎的查詢;
(2)?? 首先將用戶查詢進行分類,假設LOG文件由以下三個域構成
????????? QUERY?? USERID? TIMESTAMP
???????? QUERY:用戶提交的查詢
???????? USERID:用戶ID信息
????????? TMESTAMP:用戶提交查詢的時間信息??
?
(3)?? 對于用戶查詢進行排序,排序原則是首先按照用戶ID進行排序,對于同一用戶,將查詢按照時間進行排序;
(4)?? 在排好序列的LOG里面尋找滿足下列特征的集合:a.如果兩個查詢屬于同一用戶發(fā)出,b.而且兩個查詢在排序的LOG文件里面緊密相鄰,c.同時兩個查詢有部分詞匯相同;
(5)?? 此時,可以將兩個查詢中不同的詞匯看作可能的候選同義詞,這些同義詞用不同詞匯表達相似的信息需求;
(6)?? 統(tǒng)計這兩個候選同義詞在語料庫文件里面共現(xiàn)次數(shù),如果出現(xiàn)次數(shù)足夠大,則認為是屬于表達相似用戶需求的同義詞,否則認為不是同義詞;具體計算應該采用的是互信息的方法,也就是說首先計算兩個候選同義詞同時在語料庫里面出現(xiàn)次數(shù),然后計算每個候選詞匯單獨出現(xiàn)在語料庫里面面的次數(shù),然后計算互信息來確定;
(7)?? 將統(tǒng)計得出的同義詞作為用戶查詢相關信息提示的依據(jù);
?
總結
以上是生活随笔為你收集整理的Google怎么做(1.相关提示)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 百度国学搜索探密
- 下一篇: google怎么做(2.相似网页算法)