小心robots.txt影响蜘蛛的爬行
相信擁有入門SEO常識的站長都知道,在網站根目錄下面寫一個robots.txt文件來阻止蜘蛛爬行那些我們并不想被搜索引擎抓取的網頁,搜索引擎建議站長使用robots文件的初衷是為了讓站長可以主動的控制那些設計到網站用戶信息的頁面不被抓取,進而導致用戶信息泄露,但實際上站長們能在robots文件上做的事情不僅如此。
比如可以在robots文件中寫上“sitemap: http://www.seoide.com/sitemap.xml”,這樣蜘蛛爬行網站sitemap的幾率就會大大增加,因為蜘蛛訪問任何一個網站,都會先檢查網站是否有robots.txt文件,如果有,就會先讀取robots文件里面的內容。另一個,很多站長覺得網站上那些動態網頁,JS地址,底部固定信息等URL并不需要被搜索引擎收錄,而且容易分散網頁權重,于是不惜花費很多時間在robots文件中寫了大量的禁止命令來阻止蜘蛛抓取這些“沒用”的網頁。
但是,筆者通過近期的工作經驗來告訴大家,這么做其實未必值得。
早前筆者負責過一個網站,網頁非常多,但是收錄非常慢,分析日志的時候,發現蜘蛛爬行的頻率也不低,就是不收錄,相信很多站長也遇到過這樣的情況,一般我們會認為是蜘蛛爬行了,也抓取了,只不過還沒“放”出來,但是筆者等了一個月,收錄依然不見增長,疑惑之余對網站各個環節展開了相信的分析,最終發現,罪魁禍首是網站的robots文件。
建站初期,考慮到很多不規則的URL如動態頁面,JS地址,SKIN地址等容易導致蜘蛛優先爬行這類地址,導致爬行其它重要頁面的幾率減少(蜘蛛在一個網站的停留時間是有限的),所以網站剛上線就在robots文件中寫了很多Disallow命令,將網站的動態頁面,JS頁面,模板相關的URL都禁止掉了,早期沒覺得有何不妥,網站收錄正常,site結果中也沒有很多“不三不四”的頁面。
但是漸漸的,筆者發現網站收錄停止增長了,實際上我已經向Google提交了多個sitemap,總共10幾萬的網頁,但實際收錄就停在了2千多個不再增長,很是奇怪,按理說我提交了那么多地址,怎么著也該收錄幾萬個才對呀。
遇到問題就要著手分析,筆者分析了好幾個環節發現都不是導致收錄停止增長的原因,最終在一次無意修改robots文件的時候才意識到,極有可能是robots文件的諸多限制導致了收錄增長停止。
這么想雖然沒有什么依據,但是只要稍微推敲一下,就會發現,這并非無稽之談。
首先我們知道蜘蛛必須先爬行網頁才有可能收錄網頁,那么蜘蛛在你網站爬行是否順暢就是一個很重要的問題,假設蜘蛛爬行你網站的時候,遇到很多障礙,爬行受阻,那么很容易想像,這樣的網站對于蜘蛛來說并不友好,蜘蛛爬行不暢了,收錄自然提高不起來,因為蜘蛛壓根爬行不到很多頁面。
很簡單的一個道理,但是卻容易被忽視。意識到有可能是這個問題之后,筆者著手簡化robots文件,將原來的10幾個命令精簡到4個,只保留了幾個涉及到賬戶信息的禁止命令。
修改后不到一周時間,網站收錄迅速增加。
可能有讀者會說“你把原來不讓收錄的頁面現在開放了,當然收錄增加嘍”,筆者不否認這點,但是自從開放了很多地址之后,蜘蛛爬行順暢了,原來一些沒被禁止卻一直不被收錄的頁面現在也開始被大量收錄了,這就說明蜘蛛爬行順暢之后,爬行這些標準頁面的機會也大大增加了,那么被收錄的機會也大大提高了。
其實說了這么多,最核心的SEO知識是:要讓蜘蛛能夠順暢的爬行你的網站,不要讓任何不必要的環節阻礙了蜘蛛的爬行。
原文來自:http://www.seoide.com/careful-robots-impact-spiders-crawling.html
轉載于:https://blog.51cto.com/likespc/799362
總結
以上是生活随笔為你收集整理的小心robots.txt影响蜘蛛的爬行的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: DNS原理及简单配置
- 下一篇: Mac OS 错误代码 -8072的可行