當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

【十大经典数据挖掘算法】PageRank

發布時間：2024/1/17 编程问答 27 豆豆

生活随笔收集整理的這篇文章主要介紹了【十大经典数据挖掘算法】PageRank 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

作者簡介：
Treant?人工智能愛好者社區專欄作者
博客專欄：https://www.cnblogs.com/en-heng

引言

PageRank是Sergey Brin與Larry Page于1998年在WWW7會議上提出來的，用來解決鏈接分析中網頁排名的問題。在衡量一個網頁的排名，直覺告訴我們：

當一個網頁被更多網頁所鏈接時，其排名會越靠前；

排名高的網頁應具有更大的表決權，即當一個網頁被排名高的網頁所鏈接時，其重要性也應對應提高。

對于這兩個直覺，PageRank算法所建立的模型非常簡單：一個網頁的排名等于所有鏈接到該網頁的網頁的加權排名之和：

表示i個網頁的PageRank值，用以衡量每一個網頁的排名；若排名越高，則其PageRank值越大。網頁之間的鏈接關系可以表示成一個有向圖

，邊

代表了網頁j鏈接到了網頁i；

為網頁j的出度，也可看作網頁j的外鏈數（ the number of out-links）。

假定

為n維PageRank值向量，A為有向圖G所對應的轉移矩陣，

n個等式（1）改寫為矩陣相乘：

但是，為了獲得某個網頁的排名，而需要知道其他網頁的排名，這不就等同于“是先有雞還是先有蛋”的問題了么？幸運的是，PageRank采用power iteration方法破解了這個問題怪圈。欲知詳情，請看下節分解。

求解

為了對上述及以下求解過程有個直觀的了解，我們先來看一個例子，網頁鏈接關系圖如下圖所示：

那么，矩陣A即為

所謂power iteration，是指先給定一個P的初始值

，然后通過多輪迭代求解:

最后收斂于

，即差別小于某個閾值。我們發現式子（2）為一個特征方程（characteristic equation），并且解P是當特征值（eigenvalue）為1時的特征向量（eigenvector）。為了滿足（2）是有解的，則矩陣AA應滿足如下三個性質：

顯然，一般情況下矩陣A這三個性質均不滿足。為了滿足性質stochastic matrix，可以把全為0的行替換為e/ne/n，其中e為單位向量；同時為了滿足性質不可約、非周期，需要做平滑處理：

其中，d為 damping factor，常置為0與1之間的一個常數；E為單位陣。那么，式子（1）被改寫為

參考資料

[1] Bing Liu and Philip S. Yu, "The Top Ten Algorithms in Data Mining" Chapter 6.

往期回顧：

【十大經典數據挖掘算法】C4.5

【十大經典數據挖掘算法】k-means

【十大經典數據挖掘算法】SVM

【十大經典數據挖掘算法】Apriori

【十大經典數據挖掘算法】EM

【從傳統方法到深度學習】圖像分類

編輯于 17:17

以上是生活随笔為你收集整理的【十大经典数据挖掘算法】PageRank的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。