翻译: 网页排名PageRank算法的来龙去脉 以及 Python实现
PageRank ( PR ) 是Google 搜索用來在其搜索引擎結(jié)果中對(duì)網(wǎng)頁進(jìn)行排名的算法。它以“網(wǎng)頁”一詞和聯(lián)合創(chuàng)始人拉里佩奇的名字命名。PageRank 是衡量網(wǎng)站頁面重要性的一種方法。根據(jù)谷歌:
PageRank 通過計(jì)算頁面鏈接的數(shù)量和質(zhì)量來確定網(wǎng)站重要性的粗略估計(jì)。基本假設(shè)是更重要的網(wǎng)站可能會(huì)收到更多來自其他網(wǎng)站的鏈接。[1]
目前,PageRank 不是谷歌用來排序搜索結(jié)果的唯一算法,但它是該公司使用的第一個(gè)算法,也是最知名的。[2] [3]截至 2019 年 9 月 24 日,PageRank 和所有相關(guān)專利均已過期。[4]
簡(jiǎn)單網(wǎng)絡(luò)的數(shù)學(xué) PageRank 以百分比表示。(Google 使用對(duì)數(shù)刻度。)頁面 C 的 PageRank 比頁面 E 高,即使指向 C 的鏈接更少;指向 C 的一個(gè)鏈接來自一個(gè)重要頁面,因此具有很高的價(jià)值。如果從隨機(jī)頁面開始的網(wǎng)絡(luò)沖浪者有 82.5% 的可能性從他們當(dāng)前訪問的頁面中選擇隨機(jī)鏈接,并且有 17.5% 的可能性跳轉(zhuǎn)到從整個(gè)網(wǎng)絡(luò)中隨機(jī)選擇的頁面,他們將到達(dá)頁面 E 8.1% 的時(shí)間。(跳轉(zhuǎn)到任意頁面的 17.5% 的可能性對(duì)應(yīng)于阻尼因子82.5%。)如果沒有阻尼,所有網(wǎng)絡(luò)沖浪者最終都會(huì)出現(xiàn)在頁面 A、B 或 C 上,而所有其他頁面的 PageRank 將為零。在存在阻尼的情況下,頁面 A 有效地鏈接到網(wǎng)絡(luò)中的所有頁面,即使它沒有自己的傳出鏈接。
1. 說明
PageRank 是一種鏈接分析算法,它為一組超鏈接文檔(如萬維網(wǎng))中的每個(gè)元素分配一個(gè)數(shù)值權(quán)重,目的是“測(cè)量”其在集合中的相對(duì)重要性。該算法可以應(yīng)用于具有相互引用和引用的任何實(shí)體集合。它分配給任何給定元素E的數(shù)值權(quán)重稱為 E 的PageRank并表示為 {\displaystyle PR(E).}公關(guān)(E)。
PageRank 源自基于webgraph的數(shù)學(xué)算法,由所有萬維網(wǎng)頁面作為節(jié)點(diǎn)創(chuàng)建,超鏈接作為邊緣創(chuàng)建,同時(shí)考慮了cnn.com或mayoclinic.org等權(quán)威中心。排名值表示特定頁面的重要性。指向頁面的超鏈接算作支持投票。一個(gè)頁面的 PageRank 是遞歸定義的,它取決于鏈接到它的所有頁面的數(shù)量和 PageRank 度量(“傳入鏈接”)。由許多 PageRank 高的頁面鏈接到的頁面本身會(huì)獲得高排名。
自 Page 和 Brin 的原始論文以來,已經(jīng)發(fā)表了許多關(guān)于 PageRank 的學(xué)術(shù)論文。[5]在實(shí)踐中,PageRank 概念可能容易受到操縱。已經(jīng)進(jìn)行了研究以識(shí)別受到錯(cuò)誤影響的 PageRank 排名。目標(biāo)是找到一種有效的方法來忽略具有錯(cuò)誤影響 PageRank 的文檔中的鏈接。[6]
其他基于鏈接的網(wǎng)頁排名算法包括Jon Kleinberg發(fā)明的HITS 算法(Teoma和現(xiàn)在的Ask.com使用)、IBM CLEVER 項(xiàng)目、TrustRank算法和Hummingbird算法。[7]
說明 PageRank 基本原理的漫畫。每個(gè)面的大小與指向它的其他面的總大小成正比。
2. 歷史
加布里埃爾平斯基和弗朗西斯納林在 1976年提出了特征值問題,他們?cè)诳茖W(xué)計(jì)量學(xué)排名科學(xué)期刊上工作,[8] 1977 年由Thomas Saaty在他的分析層次過程的概念中提出,該概念加權(quán)替代選擇,[9]和 1995 年由布拉德利提出Love和Steven Sloman作為概念的認(rèn)知模型,中心性算法。[10] [11]
1996 年由李彥宏設(shè)計(jì)的 IDD Information Services 的名為“ RankDex ”的搜索引擎制定了網(wǎng)站評(píng)分和頁面排名策略。[12]李將他的搜索機(jī)制稱為“鏈接分析”,它涉及根據(jù)鏈接到該網(wǎng)站的其他網(wǎng)站的數(shù)量對(duì)網(wǎng)站的受歡迎程度進(jìn)行排名。[13] RankDex 是第一個(gè)具有頁面排名和站點(diǎn)評(píng)分算法的搜索引擎,于 1996 年推出。[14] Li 于 1997 年在 RankDex 中申請(qǐng)了該技術(shù)的專利;它于 1999 年被授予。[15]后來他在 2000 年在中國(guó)創(chuàng)立百度時(shí)使用了它。 [16] [17]谷歌創(chuàng)始人拉里佩奇在他的一些美國(guó) PageRank 專利中引用了 Li 的工作作為引用。[18] [14] [19]
拉里佩奇和謝爾蓋布林于 1996 年在斯坦福大學(xué)開發(fā)了 PageRank,作為關(guān)于一種新型搜索引擎的研究項(xiàng)目的一部分。對(duì)Héctor García-Molina的采訪:斯坦福計(jì)算機(jī)科學(xué)教授和 Sergey 的顧問[20] 提供了頁面排名算法開發(fā)的背景。[21] Sergey Brin 的想法是,網(wǎng)絡(luò)上的信息可以通過“鏈接流行度”在層次結(jié)構(gòu)中排序:一個(gè)頁面的排名越高,因?yàn)樗懈嗟逆溄印22]該系統(tǒng)是在 Scott Hassan 和 Alan Steremberg 的幫助下開發(fā)的,Page 和 Brin 都認(rèn)為他們對(duì) Google 的發(fā)展至關(guān)重要。[5] 拉吉夫·莫特瓦尼和Terry Winograd與 Page 和 Brin 共同撰寫了關(guān)于該項(xiàng)目的第一篇論文,描述了 PageRank 和Google 搜索引擎的初始原型,發(fā)表于 1998 年。[5]不久之后,Page 和 Brin 創(chuàng)立了Google Inc.,該公司背后的公司谷歌搜索引擎。雖然只是決定 Google 搜索結(jié)果排名的眾多因素之一,但 PageRank 繼續(xù)為 Google 的所有網(wǎng)絡(luò)搜索工具提供基礎(chǔ)。[23]
“PageRank”這個(gè)名字來源于開發(fā)者拉里佩奇的名字,以及網(wǎng)頁的概念。[24] [25]這個(gè)詞是谷歌的商標(biāo),PageRank 過程已獲得專利(美國(guó)專利 6,285,999)。然而,該專利被轉(zhuǎn)讓給斯坦福大學(xué)而不是谷歌。谷歌擁有斯坦福大學(xué)專利的獨(dú)家許可權(quán)。該大學(xué)獲得了 180 萬股谷歌股票以換取該專利的使用;2005年以3.36億美元出售股份。[26] [27]
PageRank 受到引文分析的影響,該分析由賓夕法尼亞大學(xué)的Eugene Garfield在 1950 年代早期開發(fā),并受到帕多瓦大學(xué)的Massimo Marchiori開發(fā)的Hyper Search的影響。在 PageRank 推出的同一年(1998 年),Jon Kleinberg發(fā)表了他關(guān)于HITS的作品。Google 的創(chuàng)始人在他們的原始論文中引用了 Garfield、Marchiori 和 Kleinberg。[5] [28]
3. 算法
PageRank 算法輸出一個(gè)概率分布,用于表示一個(gè)人隨機(jī)點(diǎn)擊鏈接將到達(dá)任何特定頁面的可能性。可以為任何大小的文檔集合計(jì)算 PageRank。在幾篇研究論文中假設(shè)分布在計(jì)算過程開始時(shí)在集合中的所有文檔中平均分配。PageRank 計(jì)算需要多次通過,稱為“迭代”,通過集合來調(diào)整近似的 PageRank 值以更接近地反映理論真實(shí)值。
概率表示為 0 到 1 之間的數(shù)值。0.5 的概率通常表示為某事發(fā)生的“50% 機(jī)會(huì)”。因此,PageRank 為 0.5 的文檔意味著點(diǎn)擊隨機(jī)鏈接的人有 50% 的機(jī)會(huì)被定向到該文檔。
3.1 簡(jiǎn)化算法
假設(shè)有四個(gè)網(wǎng)頁的小宇宙:A、B、C和D。從頁面到自身的鏈接將被忽略。從一個(gè)頁面到另一個(gè)頁面的多個(gè)出站鏈接被視為單個(gè)鏈接。PageRank 被初始化為所有頁面的相同值。在 PageRank 的原始形式中,所有頁面的 PageRank 之和是當(dāng)時(shí)網(wǎng)絡(luò)上的頁面總數(shù),因此本示例中的每個(gè)頁面的初始值都為 1。但是,更高版本的 PageRank,以及本節(jié)的其余部分,假設(shè)概率分布在 0 和 1 之間。因此,本示例中每一頁的初始值為 0.25。
在下一次迭代中,從給定頁面轉(zhuǎn)移到其出站鏈接目標(biāo)的 PageRank 在所有出站鏈接中平均分配。
如果系統(tǒng)中唯一的鏈接是從頁面B、C和D到A,則每個(gè)鏈接將在下一次迭代時(shí)將 0.25 PageRank 轉(zhuǎn)移到A,總共 0.75。
PR(A)=PR(B)+PR(C)+PR(D)假設(shè)頁面B具有指向頁面C和A的鏈接,頁面C具有指向頁面A的鏈接,頁面D具有指向所有三個(gè)頁面的鏈接。因此,在第一次迭代時(shí),頁面B會(huì)將其現(xiàn)有值的一半(即 0.125)轉(zhuǎn)移到頁面A,而將另一半(即 0.125)轉(zhuǎn)移到頁面C。頁面C會(huì)將其所有現(xiàn)有值 0.25 轉(zhuǎn)移到它鏈接到的唯一頁面A。由于D有 3 個(gè)出站鏈路,它會(huì)將其現(xiàn)有值的三分之一(大約 0.083)轉(zhuǎn)移到A. 在此迭代完成時(shí),頁面A的 PageRank 大約為 0.458。
PR(A)=PR(B) / 2 + PR(C) / 1 + PR(D) / 3換句話說,出站鏈接賦予的 PageRank 等于文檔自己的 PageRank 分?jǐn)?shù)除以出站鏈接的數(shù)量L(·)。
PR(A)= PR(B) / L(B) + PR(C) / L(C) + PR(D) / L(D)在一般情況下,任何頁面u的 PageRank 值都可以表示為:
即頁面u的 PageRank 值取決于集合B u(包含鏈接到頁面u的所有頁面的集合)中包含的每個(gè)頁面v的 PageRank 值除以來自頁面v的鏈接數(shù)L ( v ) 。
3.2 阻尼系數(shù)
PageRank 理論認(rèn)為,一個(gè)想象中的隨機(jī)點(diǎn)擊鏈接的沖浪者最終會(huì)停止點(diǎn)擊。在任何一步,該人將繼續(xù)的概率是阻尼因子d。各種研究已經(jīng)測(cè)試了不同的阻尼系數(shù),但通常假設(shè)阻尼系數(shù)將設(shè)置在 0.85 左右。[5]
從 1 中減去阻尼因子(在算法的某些變體中,結(jié)果除以集合中的文檔數(shù) ( N )),然后將該項(xiàng)添加到阻尼因子和總和的乘積中傳入的 PageRank 分?jǐn)?shù)。那是,
因此,任何頁面的 PageRank 很大程度上都來源于其他頁面的 PageRank。阻尼因子將導(dǎo)出值向下調(diào)整。然而,原始論文給出了以下公式,這導(dǎo)致了一些混亂:
它們之間的區(qū)別在于,第一個(gè)公式中的 PageRank 值總和為 1,而在第二個(gè)公式中,每個(gè) PageRank 乘以N,總和變?yōu)镹。Page 和 Brin 的論文中聲明“所有 PageRank 的總和為 1” [5]以及其他 Google 員工[29]的聲明支持上述公式的第一個(gè)變體。
Page 和 Brin 在他們最受歡迎的論文“大規(guī)模超文本 Web 搜索引擎的剖析”中混淆了這兩個(gè)公式,他們錯(cuò)誤地聲稱后一個(gè)公式形成了網(wǎng)頁上的概率分布。[5]
每次爬網(wǎng)并重建其索引時(shí),Google 都會(huì)重新計(jì)算 PageRank 分?jǐn)?shù)。隨著 Google 增加其集合中的文檔數(shù)量,所有文檔的 PageRank 的初始近似值都會(huì)降低。
該公式使用隨機(jī)沖浪者的模型,該模型在幾次點(diǎn)擊后到達(dá)目標(biāo)站點(diǎn),然后切換到隨機(jī)頁面。頁面的 PageRank 值反映了隨機(jī)瀏覽者通過單擊鏈接登陸該頁面的機(jī)會(huì)。可以理解為一個(gè)馬爾可夫鏈,其中狀態(tài)是頁面,轉(zhuǎn)換是頁面之間的鏈接——所有這些都是等概率的。
如果一個(gè)頁面沒有指向其他頁面的鏈接,它就會(huì)成為一個(gè)接收器,因此終止隨機(jī)沖浪過程。如果隨機(jī)沖浪者到達(dá)接收器頁面,它會(huì)隨機(jī)選擇另一個(gè)URL并繼續(xù)再次沖浪。
在計(jì)算 PageRank 時(shí),假定沒有出站鏈接的頁面鏈接到集合中的所有其他頁面。因此,他們的 PageRank 分?jǐn)?shù)在所有其他頁面之間平均分配。換句話說,為了公平對(duì)待不是接收器的頁面,這些隨機(jī)轉(zhuǎn)換被添加到 Web 中的所有節(jié)點(diǎn)。這個(gè)殘差概率d通常設(shè)置為 0.85,根據(jù)普通沖浪者使用他或她的瀏覽器書簽功能的頻率估計(jì)。所以,方程如下:
在哪里p1, p2, ..., pn是正在考慮的頁面,M§是鏈接到的一組頁面pi, L(pj)是頁面上的出站鏈接數(shù)pj, 和N是總頁數(shù)。
PageRank 值是修改后的鄰接矩陣的主要右特征向量的條目,經(jīng)過重新縮放,每列加起來為 1。這使得 PageRank 成為一個(gè)特別優(yōu)雅的度量:特征向量是
其中R是方程的解
其中鄰接函數(shù)l(pi,pj)是從頁面 j 到頁面 i 的出站鏈接數(shù)與頁面 j 的出站鏈接總數(shù)的比率。如果頁面鄰接函數(shù)為0pj不鏈接到pi, 并歸一化,使得對(duì)于每個(gè)j
即每列的元素總和為1,所以矩陣是一個(gè)隨機(jī)矩陣(更多細(xì)節(jié)見下面的計(jì)算部分)。因此,這是網(wǎng)絡(luò)分析中常用的特征向量中心性度量的變體。
由于上述修改后的鄰接矩陣的大特征間隙,[ 30] PageRank 特征向量的值可以在僅幾次迭代內(nèi)以高精度逼近。
Google 的創(chuàng)始人在他們的原始論文[28]中報(bào)告說,由 3.22 億個(gè)鏈接(入邊和出邊)組成的網(wǎng)絡(luò)的 PageRank 算法在 52 次迭代中收斂到可容忍的限制內(nèi)。在上述一半大小的網(wǎng)絡(luò)中收斂大約需要 45 次迭代。通過這些數(shù)據(jù),他們得出結(jié)論,該算法可以很好地縮放,并且超大型網(wǎng)絡(luò)的縮放因子在{\displaystyle \log n}\日志n,其中 n 是網(wǎng)絡(luò)的大小。
作為馬爾可夫理論的結(jié)果,可以證明一個(gè)頁面的PageRank是經(jīng)過大量點(diǎn)擊后到達(dá)該頁面的概率。這恰好等于{\displaystyle t{-1}}t{-1}在哪里{\displaystyle t}噸是從頁面返回到自身所需的點(diǎn)擊次數(shù)(或隨機(jī)跳轉(zhuǎn)) 的期望值。
PageRank 的一個(gè)主要缺點(diǎn)是它偏愛舊頁面。一個(gè)新頁面,即使是一個(gè)非常好的頁面,也不會(huì)有很多鏈接,除非它是現(xiàn)有站點(diǎn)的一部分(一個(gè)站點(diǎn)是一組緊密連接的頁面,例如Wikipedia)。
已經(jīng)提出了幾種策略來加速 PageRank 的計(jì)算。[31]
為了提高搜索結(jié)果排名和通過廣告鏈接獲利,已經(jīng)采用了各種操縱 PageRank 的策略。這些策略嚴(yán)重影響了 PageRank 概念的可靠性,[引用需要]旨在確定哪些文檔實(shí)際上受到 Web 社區(qū)的高度重視。
自 2007 年 12 月開始積極懲罰銷售付費(fèi)文本鏈接的網(wǎng)站以來,Google 一直在打擊鏈接農(nóng)場(chǎng)和其他旨在人為抬高 PageRank 的計(jì)劃。Google 如何識(shí)別鏈接農(nóng)場(chǎng)和其他 PageRank 操縱工具屬于 Google 的商業(yè)機(jī)密。
3.3 python 實(shí)現(xiàn)代碼
"""PageRank algorithm with explicit number of iterations.Returns ------- ranking of nodes (pages) in the adjacency matrix"""import numpy as npdef pagerank(M, num_iterations: int = 100, d: float = 0.85):"""PageRank: The trillion dollar algorithm.Parameters----------M : numpy arrayadjacency matrix where M_i,j represents the link from 'j' to 'i', such that for all 'j'sum(i, M_i,j) = 1num_iterations : int, optionalnumber of iterations, by default 100d : float, optionaldamping factor, by default 0.85Returns-------numpy arraya vector of ranks such that v_i is the i-th rank from [0, 1],v sums to 1"""N = M.shape[1]v = np.ones(N) / NM_hat = (d * M + (1 - d) / N)for i in range(num_iterations):v = v @ M_hatreturn vM = np.array([[0, 0, 0, 0, 1],[0.5, 0, 0, 0, 0],[0.5, 0, 0, 0, 0],[0, 1, 0.5, 0, 0],[0, 0, 0.5, 1, 0]]) v = pagerank(M, 100, 0.85)4. 變體
4. 1 無向圖的 PageRank
無向圖的 PageRank G在統(tǒng)計(jì)上接近圖的度分布 G, [36]但它們通常不相同:如果R是上面定義的 PageRank 向量,并且D是度分布向量
也就是說,無向圖的PageRank等于度分布向量當(dāng)且僅當(dāng)圖是規(guī)則的,即每個(gè)頂點(diǎn)具有相同的度。
4. 2 兩種排序?qū)ο蟮?PageRank 和特征向量中心性的推廣
Daugulis 描述了對(duì)兩個(gè)交互對(duì)象組進(jìn)行排名的情況下的 PageRank 推廣。[38]在應(yīng)用程序中,可能需要對(duì)具有兩種對(duì)象的系統(tǒng)進(jìn)行建模,其中在對(duì)象對(duì)上定義了加權(quán)關(guān)系。這導(dǎo)致考慮二分圖。對(duì)于這樣的圖,可以定義對(duì)應(yīng)于頂點(diǎn)劃分集的兩個(gè)相關(guān)的正或非負(fù)不可約矩陣。可以將兩組中對(duì)象的排名計(jì)算為對(duì)應(yīng)于這些矩陣的最大正特征值的特征向量。根據(jù) Perron 或 Perron-Frobenius 定理,范數(shù)特征向量存在并且是唯一的。例如:消費(fèi)者和產(chǎn)品。關(guān)系權(quán)重是產(chǎn)品消耗率。
4. 3 PageRank計(jì)算的分布式算法
薩爾馬等人。描述了兩種基于隨機(jī)游走的分布式算法,用于計(jì)算網(wǎng)絡(luò)中節(jié)點(diǎn)的 PageRank。
4. 4 谷歌工具欄
長(zhǎng)期以來,Google 工具欄都有一個(gè) PageRank 功能,可以將訪問頁面的 PageRank 顯示為一個(gè)介于 0(最不受歡迎)和 10(最受歡迎)之間的整數(shù)。谷歌沒有透露確定工具欄 PageRank 值的具體方法,這被認(rèn)為只是網(wǎng)站價(jià)值的粗略指示。通過 Google 網(wǎng)站管理員工具界面,經(jīng)過驗(yàn)證的網(wǎng)站維護(hù)者可以使用“工具欄 Pagerank”。然而,在 2009 年 10 月 15 日,一名 Google 員工證實(shí)該公司已將 PageRank 從其網(wǎng)站管理員工具部分中刪除,稱“我們長(zhǎng)期以來一直在告訴人們,他們不應(yīng)該如此關(guān)注 PageRank。許多網(wǎng)站業(yè)主似乎認(rèn)為這是最重要的指標(biāo)讓他們跟蹤,這根本不是真的。” [40]
“工具欄 Pagerank”很少更新。它最后一次更新是在 2013 年 11 月。2014 年 10 月,Matt Cutts 宣布不會(huì)再出現(xiàn)另一個(gè)可見的 pagerank 更新。[41] 2016 年 3 月,Google 宣布將不再支持此功能,并且底層 API 將很快停止運(yùn)行。[42] 2016 年 4 月 15 日,Google 關(guān)閉了在 Google 工具欄中顯示 PageRank 數(shù)據(jù),[43]盡管 PageRank 繼續(xù)在內(nèi)部用于對(duì)搜索結(jié)果中的內(nèi)容進(jìn)行排名。
4. 5 SERP 排名
搜索引擎結(jié)果頁面(SERP)是搜索引擎響應(yīng)關(guān)鍵字查詢返回的實(shí)際結(jié)果。SERP 包含一個(gè)鏈接到網(wǎng)頁的列表以及相關(guān)的文本片段。網(wǎng)頁的 SERP 排名是指相應(yīng)鏈接在 SERP 上的位置,位置越高意味著 SERP 排名越高。網(wǎng)頁的 SERP 排名不僅是其 PageRank 的函數(shù),而且是一組相對(duì)較大且不斷調(diào)整的因素(超過 200 個(gè))的函數(shù)。[45] [來源不可靠?] 搜索引擎優(yōu)化(SEO) 旨在影響一個(gè)網(wǎng)站或一組網(wǎng)頁的 SERP 排名。
網(wǎng)頁在 Google SERP 上的關(guān)鍵字定位取決于相關(guān)性和聲譽(yù),也稱為權(quán)威和流行度。PageRank 是 Google 對(duì)網(wǎng)頁聲譽(yù)評(píng)估的指標(biāo):它與關(guān)鍵字無關(guān)。谷歌使用網(wǎng)頁和網(wǎng)站權(quán)限的組合來確定競(jìng)爭(zhēng)關(guān)鍵字的網(wǎng)頁的整體權(quán)限。[46]網(wǎng)站主頁的 PageRank 是谷歌為網(wǎng)站權(quán)威提供的最佳指標(biāo)。[47]
在將Google Places引入主流有機(jī) SERP 之后,除了 PageRank 之外,還有許多其他因素會(huì)影響企業(yè)在本地業(yè)務(wù)結(jié)果中的排名。[48]當(dāng) Google 在 2016 年 3 月的問答環(huán)節(jié)中詳細(xì)闡述棄用 PageRank 的原因時(shí),他們宣布鏈接和內(nèi)容是排名靠前的因素。RankBrain 在 2015 年 10 月早些時(shí)候被宣布為排名第三的因素,因此前 3 名因素已被 Google 正式確認(rèn)。
4.6 Google 目錄 PageRank
Google Directory PageRank 是一個(gè) 8 個(gè)單位的度量。與將鼠標(biāo)懸停在綠色欄上時(shí)顯示數(shù)字 PageRank 值的 Google 工具欄不同,Google 目錄只顯示欄,從不顯示數(shù)值。Google 目錄于 2011 年 7 月 20 日關(guān)閉。
4.7 虛假或欺騙的 PageRank
眾所周知,工具欄中顯示的 PageRank 很容易被 欺騙。通過HTTP 302響應(yīng)或“刷新”元標(biāo)記從一個(gè)頁面重定向到另一個(gè)頁面,導(dǎo)致源頁面獲取目標(biāo)頁面的 PageRank。因此,具有 PR 0 且沒有傳入鏈接的新頁面可以通過重定向到 Google 主頁獲得 PR 10。欺騙通常可以通過對(duì)源 URL 執(zhí)行 Google 搜索來檢測(cè);如果結(jié)果中顯示的是完全不同站點(diǎn)的 URL,則后一個(gè) URL 可能代表重定向的目標(biāo)。
4.8 操縱 PageRank
出于搜索引擎優(yōu)化的目的,一些公司提供向網(wǎng)站管理員出售高 PageRank 鏈接。[51]由于來自更高公關(guān)頁面的鏈接被認(rèn)為更有價(jià)值,它們往往更昂貴。在優(yōu)質(zhì)的內(nèi)容頁面和相關(guān)網(wǎng)站上購(gòu)買鏈接廣告以增加流量并增加網(wǎng)站管理員的鏈接受歡迎程度是一種有效且可行的營(yíng)銷策略。然而,谷歌已公開警告網(wǎng)站管理員,如果他們正在或被發(fā)現(xiàn)出售鏈接以授予 PageRank 和聲譽(yù),他們的鏈接將被貶值(在計(jì)算其他頁面的 PageRank 時(shí)忽略)。買賣[52]的做法在網(wǎng)站管理員社區(qū)中引起了激烈的爭(zhēng)論。Google 建議網(wǎng)站管理員使用 付費(fèi)鏈接上的nofollow HTML 屬性值。根據(jù)Matt Cutts的說法,谷歌擔(dān)心那些試圖玩弄系統(tǒng)的網(wǎng)站管理員,從而??降低谷歌搜索結(jié)果的質(zhì)量和相關(guān)性。[51]
2019 年,Google 提供了一種新型標(biāo)簽,它不傳遞“鏈接汁”,因此對(duì) SEO 鏈接操作沒有價(jià)值:rel=“ugc” 作為用戶生成內(nèi)容的標(biāo)簽,例如評(píng)論;和 rel=“贊助” 標(biāo)簽用于廣告或其他類型的贊助內(nèi)容。[53]
盡管 PageRank 對(duì)于 SEO 目的變得不那么重要,但來自更受歡迎網(wǎng)站的反向鏈接的存在繼續(xù)推動(dòng)網(wǎng)頁在搜索排名中更高。
4.9 定向沖浪者模型
一個(gè)更智能的沖浪者,它可以根據(jù)頁面內(nèi)容和沖浪者正在尋找的查詢?cè)~來概率地從一個(gè)頁面跳到另一個(gè)頁面。該模型基于頁面的查詢相關(guān)的 PageRank 分?jǐn)?shù),顧名思義,它也是查詢的函數(shù)。當(dāng)給定一個(gè)多詞查詢時(shí),{\displaystyle Q={q1,q2,\cdots }}{\displaystyle Q={q1,q2,\cdots }},沖浪者選擇一個(gè){\displaystyle q}q根據(jù)某種概率分布,{\displaystyle P(q)}P(q),并使用該術(shù)語來指導(dǎo)其大量步驟的行為。然后它根據(jù)分布選擇另一個(gè)術(shù)語來確定其行為,依此類推。所訪問網(wǎng)頁上的結(jié)果分布是 QD-PageRank。
4.10 社交組件
Katja Mayer 將 PageRank 視為一個(gè)社交網(wǎng)絡(luò),因?yàn)樗鼘⒉煌挠^點(diǎn)和想法連接在一個(gè)地方。[56] 人們?nèi)?PageRank 獲取信息,并被其他作者的引用淹沒,這些作者也對(duì)該主題有意見。這創(chuàng)造了一個(gè)社交方面,可以討論和收集所有內(nèi)容以激發(fā)思考。PageRank 與使用它的人之間存在著一種社會(huì)關(guān)系,因?yàn)樗粩噙m應(yīng)和改變現(xiàn)代社會(huì)的變化。通過社會(huì)統(tǒng)計(jì)查看 PageRank 與個(gè)人之間的關(guān)系,可以深入了解產(chǎn)生的聯(lián)系。
[57] Matteo Pasquinelli 認(rèn)為,PageRank 具有社會(huì)成分的信念的基礎(chǔ)在于注意力經(jīng)濟(jì)的概念。. 在注意力經(jīng)濟(jì)中,人們重視那些獲得更多人類關(guān)注的產(chǎn)品,并且 PageRank 頂部的結(jié)果比后續(xù)頁面上的結(jié)果更受關(guān)注。因此,PageRank 較高的結(jié)果將更大程度地進(jìn)入人類意識(shí)。這些想法可以影響決策,并且查看者的行為與 PageRank 有直接關(guān)系。他們擁有更高的潛力來吸引用戶的注意力,因?yàn)樗麄兊奈恢迷黾恿伺c網(wǎng)站相關(guān)的注意力經(jīng)濟(jì)。有了這個(gè)位置,他們可以獲得更多的流量,他們的在線市場(chǎng)將有更多的購(gòu)買。這些網(wǎng)站的 PageRank 使他們受到信任,并且他們能夠利用這種信任來增加業(yè)務(wù)。
4.11 其他用途
PageRank 的數(shù)學(xué)是完全通用的,適用于任何領(lǐng)域的任何圖形或網(wǎng)絡(luò)。因此,PageRank 現(xiàn)在經(jīng)常用于文獻(xiàn)計(jì)量學(xué)、社會(huì)和信息網(wǎng)絡(luò)分析,以及鏈接預(yù)測(cè)和推薦。它用于道路網(wǎng)絡(luò)的系統(tǒng)分析,以及生物學(xué)、化學(xué)、神經(jīng)科學(xué)和物理學(xué)。
5. 科學(xué)研究和學(xué)術(shù)界
PageRank 已被用于量化研究人員的科學(xué)影響。底層引用和協(xié)作網(wǎng)絡(luò)與 pagerank 算法結(jié)合使用,以便為傳播給單個(gè)作者的單個(gè)出版物提供一個(gè)排名系統(tǒng)。在 h-index 表現(xiàn)出的許多缺點(diǎn)的背景下,被稱為 pagerank-index (Pi) 的新索引被證明比 h-index 更公平。[59]
對(duì)于生物學(xué)中的蛋白質(zhì)網(wǎng)絡(luò)分析,PageRank 也是一個(gè)有用的工具。[60] [61]
在任何生態(tài)系統(tǒng)中,PageRank 的修改版本可用于確定對(duì)環(huán)境持續(xù)健康至關(guān)重要的物種。[62]
PageRank 的一個(gè)類似的新用途是根據(jù)他們將畢業(yè)生安置在教師職位上的記錄對(duì)學(xué)術(shù)博士課程進(jìn)行排名。在 PageRank 術(shù)語中,學(xué)術(shù)部門通過相互(和他們自己)雇用教師來相互聯(lián)系。[63]
最近提出了一個(gè) PageRank 版本來替代傳統(tǒng)的科學(xué)信息研究所(ISI)影響因子[64],并在Eigenfactor和SCImago中實(shí)施。不是僅僅計(jì)算對(duì)期刊的總引用次數(shù),而是以 PageRank 方式確定每次引用的“重要性”。
在神經(jīng)科學(xué)中,已發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)中神經(jīng)元的 PageRank與其相對(duì)放電率相關(guān)。
6. 互聯(lián)網(wǎng)使用
-
Twitter使用個(gè)性化 PageRank向用戶展示他們可能希望關(guān)注的其他帳戶。[66]
-
Swiftype的網(wǎng)站搜索產(chǎn)品??通過查看每個(gè)網(wǎng)站的重要性信號(hào)并根據(jù)主頁鏈接數(shù)量等因素對(duì)內(nèi)容進(jìn)行優(yōu)先排序,從而構(gòu)建“特定于各個(gè)網(wǎng)站的 PageRank”。[67]
-
Web 爬蟲可以使用PageRank 作為其用于確定在 Web 爬網(wǎng)期間訪問哪個(gè) URL 的多個(gè)重要性指標(biāo)之一。用于創(chuàng)建 Google的早期工作論文之一[68]是Efficient crawling through URL ordering,[69]討論了使用許多不同的重要性指標(biāo)來確定 Google 網(wǎng)站的深度和多少會(huì)爬行。PageRank 被表示為這些重要性指標(biāo)之一,盡管還列出了其他一些指標(biāo),例如 URL 的入站和出站鏈接的數(shù)量,以及從站點(diǎn)上的根目錄到 URL 的距離。
-
PageRank 也可以用作衡量像博客圈這樣的社區(qū)對(duì)整個(gè) Web 本身的明顯影響的方法。因此,這種方法使用 PageRank 來衡量注意力的分布,以反映無標(biāo)度網(wǎng)絡(luò)范式。
7. 其他應(yīng)用
2005 年,在巴基斯坦的一項(xiàng)試點(diǎn)研究中,結(jié)構(gòu)性深層民主,SD2 [70] [71]被用于一個(gè)名為 Contact Youth 的可持續(xù)農(nóng)業(yè)組織的領(lǐng)導(dǎo)層選拔。SD2 使用PageRank來處理傳遞代理投票,附加約束要求每個(gè)選民至少有兩個(gè)初始代理,并且所有選民都是代理候選人。可以在 SD2 之上構(gòu)建更復(fù)雜的變體,例如添加專家代理和對(duì)特定問題的直接投票,但 SD2 作為底層的傘式系統(tǒng),要求始終使用通才代理。
在體育運(yùn)動(dòng)中,PageRank 算法已被用于對(duì)以下球隊(duì)的表現(xiàn)進(jìn)行排名: 美國(guó)國(guó)家橄欖球聯(lián)盟 (NFL) 球隊(duì);[72] 個(gè)人足球運(yùn)動(dòng)員;[73]和鉆石聯(lián)賽的運(yùn)動(dòng)員。[74]
PageRank 已用于對(duì)空間或街道進(jìn)行排名,以預(yù)測(cè)有多少人(行人或車輛)來到各個(gè)空間或街道。[75] [76]在詞匯語義中,它已被用于執(zhí)行詞義消歧、[77] 語義相似性、[78],還可以根據(jù)WordNet 同義詞集具有給定語義屬性的強(qiáng)度(例如積極性或消極性。
8. nofollow
005 年初,Google為 HTML 鏈接和錨元素的rel屬性實(shí)施了一個(gè)新值,“ nofollow ”,[80],以便網(wǎng)站開發(fā)人員和博主可以創(chuàng)建 Google 不會(huì)出于 PageRank 目的考慮的鏈接——它們是在 PageRank 系統(tǒng)中不再構(gòu)成“投票”的鏈接。添加 nofollow 關(guān)系是為了幫助打擊垃圾郵件索引。
例如,人們以前可以創(chuàng)建許多帶有指向其網(wǎng)站的鏈接的留言板帖子,以人為地抬高他們的 PageRank。使用 nofollow 值,留言板管理員可以修改他們的代碼以自動(dòng)將“rel=‘nofollow’”插入帖子中的所有超鏈接,從而防止 PageRank 受到這些特定帖子的影響。然而,這種避免方法也有各種缺點(diǎn),例如降低合法評(píng)論的鏈接價(jià)值。(請(qǐng)參閱:博客中的垃圾郵件#nofollow)
為了手動(dòng)控制網(wǎng)站內(nèi)頁面之間的 PageRank 流量,許多網(wǎng)站管理員實(shí)踐了所謂的 PageRank Sculpting [81] ——這是一種策略性地將 nofollow 屬性放置在網(wǎng)站的某些內(nèi)部鏈接上以便漏斗的行為網(wǎng)站管理員認(rèn)為最重要的那些頁面的 PageRank。這種策略自 nofollow 屬性開始就已使用,但可能不再有效,因?yàn)?Google 宣布使用 nofollow 阻止 PageRank 傳輸不會(huì)將該 PageRank 重定向到其他鏈接。
9. 參考
https://en.wikipedia.org/wiki/PageRank
總結(jié)
以上是生活随笔為你收集整理的翻译: 网页排名PageRank算法的来龙去脉 以及 Python实现的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 玩一个钓鱼网站
- 下一篇: 系统错误H80004005(-21474