网页更新策略
目錄
網頁更新策略
歷史參考策略
用戶體驗策略
聚類抽樣策略
網頁更新策略
網頁更新策略的任務是要決定何時重新抓取之前已經下載過的網 頁,以盡可能使得本地下載網頁和互聯網原始頁面內容保持一致。常用 的網頁更新策略有3種:歷史參考策略、用戶體驗策略和聚類抽樣策略。
歷史參考策略
建立的假設基礎:過去頻繁發生變化的網頁將來也會頻繁更新.這種方法往往利用泊松過程來對網頁的變化進行建模,根據每個網 頁過去的變動情況,利用模型預測將來何時內容會再次發生變化,以此 來指導爬蟲的抓取過程。但是不同方法側重不盡相同,比如有的研究將 一個網頁劃分成不同的區域,抓取策略應該忽略掉廣告欄或者導航欄這 種不重要區域的頻繁變化,而集中在主題內容的變化探測和建模上。
用戶體驗策略
影響力越大的網頁,應該盡快更新.
聚類抽樣策略
,首先根據網頁所表現出的特 征,將其聚類成不同的類別,每個類別內的網頁具有相似的更新周期。 從類別中抽取一部分最有代表性的網頁(一般抽取最靠近類中心的那些 網頁),對這些網頁計算其更新周期,那么這個更新周期適用于類別內 的所有網頁,之后即可根據網頁所屬類別來決定其更新頻率。
相關實驗表明,聚類抽樣策略效果好于前述兩種更新策略,但是對 以億計的網頁進行聚類,其難度也是非常巨大的。?
?
總結
- 上一篇: 计算机行业未来作文,未来的计算机作文
- 下一篇: 《Unix网络编程》环境搭建