google怎么做(2.相似网页算法)
/*版權(quán)聲明:可以任意轉(zhuǎn)載,轉(zhuǎn)載時請務(wù)必標明文章原始出處和作者信息 .*/
GOOGLE 的相似網(wǎng)頁功能算法
?
中科院軟件所 張俊林
?time stamp:???????? 2006年4月3日
?
我們使用GOOGLE在檢索結(jié)果列表里面每個檢索結(jié)果會有”相似網(wǎng)頁(Similar pages)”的鏈接,主要提供和所列出的頁面相似的網(wǎng)頁,那么這個功能是如何實現(xiàn)的?
GOOGLE(http://googlechinablog.com/2006/04/blog-post_10.html)利用鏈接分析來提供相關(guān)網(wǎng)頁的功能,其基本思路是:如果一個頁面和另外一個頁面相似,那么其鏈接關(guān)系也是相似的.其算法如下:
(1)?? 用戶選定某個頁面A,希望查看相關(guān)網(wǎng)頁;
(2)?? 首先根據(jù)頁面鏈接關(guān)系構(gòu)建兩個頁面集合,第一個頁面集合是有外向鏈接(out link)指向頁面A的所有互聯(lián)網(wǎng)頁面,我們假設(shè)這個集合包含兩個網(wǎng)頁{B,C},也就是說B和C頁面都有鏈接指向頁面A,同時我們假定B有鏈接指向D頁面,C有鏈接指向E頁面;
(3)?? 第二個頁面集合是第一個頁面集合里面的頁面外向鏈接指向的所有頁面;上面的例子就是集合{D,E};
(4)?? 第一個頁面集合指向第二個頁面集合的每個鏈接都賦予一個權(quán)重值,權(quán)重的設(shè)定有不同的方法,基本原則是如果是同一個網(wǎng)站的不同頁面的鏈接,那么鏈接權(quán)重要降低.
(5)?? 第二個頁面集合的頁面根據(jù)指向自己的鏈接的權(quán)重值之和來確定頁面分值,按照分值大小順序排序輸出
?
看起來比較繁瑣,實際上基本想法很簡單,一句話概況就是:誰的鏈接指向我?那么這些指向我的頁面還指向誰?
總結(jié)
以上是生活随笔為你收集整理的google怎么做(2.相似网页算法)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Google怎么做(1.相关提示)
- 下一篇: Orion算法:GOOGLE干掉百度的核