當(dāng)前位置：首頁(yè) > 编程资源 > 编程问答 >内容正文

编程问答

robots.txt文件的作用及写法（搜索引擎）

發(fā)布時(shí)間：2024/1/1 编程问答 46 豆豆

生活随笔收集整理的這篇文章主要介紹了 robots.txt文件的作用及写法（搜索引擎）小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

robots其實(shí)就是指Robots協(xié)議，Robots協(xié)議（也稱(chēng)為爬蟲(chóng)協(xié)議、機(jī)器人協(xié)議等）的全稱(chēng)是“網(wǎng)絡(luò)爬蟲(chóng)排除標(biāo)準(zhǔn)”（Robots Exclusion Protocol），網(wǎng)站通過(guò)Robots協(xié)議告訴搜索引擎哪些頁(yè)面可以抓取，哪些頁(yè)面不能抓取。

而承載這些協(xié)議的文件就是robots.txt文件，那么robots.txt文件到底有啥用途，robots協(xié)議應(yīng)該怎么寫(xiě)，有哪些注意事項(xiàng)，在這本文將詳細(xì)跟大家介紹。

前言：

Robots.txt文件的重要性

robots.txt是搜索引擎蜘蛛訪問(wèn)網(wǎng)站時(shí)要查看的第一個(gè)文件，并且會(huì)根據(jù)robots.txt文件的內(nèi)容來(lái)爬行網(wǎng)站。在某種意義上說(shuō)，它的一個(gè)任務(wù)就是指導(dǎo)蜘蛛爬行，減少搜索引擎蜘蛛的工作量。

當(dāng)搜索引擎蜘蛛訪問(wèn)網(wǎng)站時(shí)，它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt文件，如果該文件存在，搜索引擎蜘蛛就會(huì)按照該文件中的內(nèi)容來(lái)確定爬行的范圍；如果該文件不存在，則所有的搜索引擎蜘蛛將能夠訪問(wèn)網(wǎng)站上所有沒(méi)有被口令保護(hù)的頁(yè)面。

通常搜索引擎對(duì)網(wǎng)站派出的蜘蛛是有配額的，多大規(guī)模的網(wǎng)站放出多少蜘蛛。如果我們不配置robots文件，那么蜘蛛來(lái)到網(wǎng)站以后會(huì)無(wú)目的的爬行，造成的一個(gè)結(jié)果就是，需要它爬行的目錄，沒(méi)有爬行到，不需要爬行的，也就是我們不想被收錄的內(nèi)容卻被爬行并放出快照。所以robots文件對(duì)于我們做網(wǎng)站優(yōu)化來(lái)說(shuō)具有很重要的影響。

網(wǎng)站沒(méi)有Robots.txt文件的弊端

如果網(wǎng)站中沒(méi)有robots.txt文件，則網(wǎng)站中的程序腳本、樣式表等一些和網(wǎng)站內(nèi)容無(wú)關(guān)的文件或目錄即使被搜索引擎蜘蛛爬行，也不會(huì)增加網(wǎng)站的收錄率和權(quán)重，只會(huì)浪費(fèi)服務(wù)器資源；搜索引擎派出的蜘蛛資源也是有限的，我們要做的應(yīng)該是盡量讓蜘蛛爬行網(wǎng)站重點(diǎn)文件、目錄，最大限度的節(jié)約蜘蛛資源。

Robots.txt文件的存放位置

網(wǎng)站根目錄下，通過(guò)“域名/robots.txt”能正常訪問(wèn)即可，如http://域名/robots.txt

一、robots.txt文件的含義，robots.txt有什么作用

前面有提到，這個(gè)文本文件承載著robots協(xié)議，它告訴所有搜索引擎本網(wǎng)站哪些頁(yè)面可以被抓取，哪些頁(yè)面禁止抓取。這樣做有兩方面的意義：

1.保護(hù)隱私。有些頁(yè)面信息不想或者說(shuō)不能讓外界看到，單搜索引擎并不知道這些情況，它還是會(huì)照常抓取、展現(xiàn)。如果我們通過(guò)設(shè)置robots做了限制，搜索引擎蜘蛛就會(huì)放棄抓取，外界就不能通過(guò)搜索引擎了解到這些隱秘信息。

2.調(diào)節(jié)頁(yè)面抓取量。我們都知道每個(gè)網(wǎng)站蜘蛛抓取的配額都是有限的，如果我們通過(guò)robots.txt文件禁止一些不重要的頁(yè)面被抓取，那么就節(jié)約了配額，讓那些重要的頁(yè)面得到更多的抓取機(jī)會(huì)。

二、robots.txt寫(xiě)法詳細(xì)

1.允許所有搜索引擎訪問(wèn)所有目錄

User-agent: *
Allow: /

PS:這里的*表示所有。

2.禁止所有搜索引擎訪問(wèn)所有目錄

User-agent: *
Disallow: /

3.禁止爬蟲(chóng)訪問(wèn)網(wǎng)站中的某些目錄:

User-agent: *
Disallow: /123

禁止爬蟲(chóng)訪問(wèn)/123開(kāi)頭的所有文件，如http://www.vipshan.com/1234/、http://www.vipshan.com/123/1.html、http://www.vipshan.com/12345/1.html等都不能被抓取

User-agent: *
Disallow: /123/

禁止爬蟲(chóng)訪問(wèn)/123/目錄下面的所有文件。

4.禁止爬蟲(chóng)訪問(wèn)某一類(lèi)文件:

User-agent: *
Disallow: /*.css$ 禁止訪問(wèn)所有css結(jié)尾的文件
Disallow: /*.js$ ?禁止訪問(wèn)所有js結(jié)尾的文件
Disallow: /*.php$ 禁止訪問(wèn)所有php結(jié)尾的文件
Disallow: /123/*.jpg$ 禁止訪問(wèn)/123/目錄下的jpg結(jié)尾的文件

PS:*表示所有，$表示結(jié)尾，上面的漢字不用寫(xiě)進(jìn)robots去！！！

5.禁止訪問(wèn)網(wǎng)站中的動(dòng)態(tài)頁(yè)面:

User-agent: *
Disallow: /*?*
Disallow: /123/*?* 禁止訪問(wèn)/123/目錄下的動(dòng)態(tài)頁(yè)面

PS:？表示動(dòng)態(tài)路徑，*表示所有。

6.禁止訪問(wèn)某些字母開(kāi)頭的目錄

可以巧用這個(gè)技巧來(lái)隱藏我們網(wǎng)站的一些目錄，例如網(wǎng)站后臺(tái)。假設(shè)www.vipshan.com的后臺(tái)目錄是/abcdef/可以這樣寫(xiě):

User-agent: *
Disallow: /abc*

總結(jié)

以上是生活随笔為你收集整理的robots.txt文件的作用及写法（搜索引擎）的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：淘宝网哥弟女装评测替换
下一篇： ppt模板下载keyppt.cn

编程问答

robots.txt文件的作用及写法 （搜索引擎）

總結(jié)

robots.txt文件的作用及写法（搜索引擎）