robots.txt文件的作用及写法 (搜索引擎)
robots其實(shí)就是指Robots協(xié)議,Robots協(xié)議(也稱(chēng)為爬蟲(chóng)協(xié)議、機(jī)器人協(xié)議等)的全稱(chēng)是“網(wǎng)絡(luò)爬蟲(chóng)排除標(biāo)準(zhǔn)”(Robots Exclusion Protocol),網(wǎng)站通過(guò)Robots協(xié)議告訴搜索引擎哪些頁(yè)面可以抓取,哪些頁(yè)面不能抓取。
而承載這些協(xié)議的文件就是robots.txt文件,那么robots.txt文件到底有啥用途,robots協(xié)議應(yīng)該怎么寫(xiě),有哪些注意事項(xiàng),在這本文將詳細(xì)跟大家介紹。
前言:
Robots.txt文件的重要性
robots.txt是搜索引擎蜘蛛訪問(wèn)網(wǎng)站時(shí)要查看的第一個(gè)文件,并且會(huì)根據(jù)robots.txt文件的內(nèi)容來(lái)爬行網(wǎng)站。在某種意義上說(shuō),它的一個(gè)任務(wù)就是指導(dǎo)蜘蛛爬行,減少搜索引擎蜘蛛的工作量。
當(dāng)搜索引擎蜘蛛訪問(wèn)網(wǎng)站時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt文件,如果該文件存在,搜索引擎蜘蛛就會(huì)按照該文件中的內(nèi)容來(lái)確定爬行的范圍;如果該文件不存在,則所有的搜索引擎蜘蛛將能夠訪問(wèn)網(wǎng)站上所有沒(méi)有被口令保護(hù)的頁(yè)面。
通常搜索引擎對(duì)網(wǎng)站派出的蜘蛛是有配額的,多大規(guī)模的網(wǎng)站放出多少蜘蛛。如果我們不配置robots文件,那么蜘蛛來(lái)到網(wǎng)站以后會(huì)無(wú)目的的爬行,造成的一個(gè)結(jié)果就是,需要它爬行的目錄,沒(méi)有爬行到,不需要爬行的,也就是我們不想被收錄的內(nèi)容卻被爬行并放出快照。所以robots文件對(duì)于我們做網(wǎng)站優(yōu)化來(lái)說(shuō)具有很重要的影響。
網(wǎng)站沒(méi)有Robots.txt文件的弊端
如果網(wǎng)站中沒(méi)有robots.txt文件,則網(wǎng)站中的程序腳本、樣式表等一些和網(wǎng)站內(nèi)容無(wú)關(guān)的文件或目錄即使被搜索引擎蜘蛛爬行,也不會(huì)增加網(wǎng)站的收錄率和權(quán)重,只會(huì)浪費(fèi)服務(wù)器資源;搜索引擎派出的蜘蛛資源也是有限的,我們要做的應(yīng)該是盡量讓蜘蛛爬行網(wǎng)站重點(diǎn)文件、目錄,最大限度的節(jié)約蜘蛛資源。
Robots.txt文件的存放位置
網(wǎng)站根目錄下,通過(guò)“域名/robots.txt”能正常訪問(wèn)即可,如http://域名/robots.txt
?
一、robots.txt文件的含義,robots.txt有什么作用
前面有提到,這個(gè)文本文件承載著robots協(xié)議,它告訴所有搜索引擎本網(wǎng)站哪些頁(yè)面可以被抓取,哪些頁(yè)面禁止抓取。這樣做有兩方面的意義:
1.保護(hù)隱私。有些頁(yè)面信息不想或者說(shuō)不能讓外界看到,單搜索引擎并不知道這些情況,它還是會(huì)照常抓取、展現(xiàn)。如果我們通過(guò)設(shè)置robots做了限制,搜索引擎蜘蛛就會(huì)放棄抓取,外界就不能通過(guò)搜索引擎了解到這些隱秘信息。
2.調(diào)節(jié)頁(yè)面抓取量。我們都知道每個(gè)網(wǎng)站蜘蛛抓取的配額都是有限的,如果我們通過(guò)robots.txt文件禁止一些不重要的頁(yè)面被抓取,那么就節(jié)約了配額,讓那些重要的頁(yè)面得到更多的抓取機(jī)會(huì)。
二、robots.txt寫(xiě)法詳細(xì)
1.允許所有搜索引擎訪問(wèn)所有目錄
User-agent: *Allow: /
PS:這里的*表示所有。
2.禁止所有搜索引擎訪問(wèn)所有目錄
User-agent: *
Disallow: /
3.禁止爬蟲(chóng)訪問(wèn)網(wǎng)站中的某些目錄:
User-agent: *
Disallow: /123
禁止爬蟲(chóng)訪問(wèn)/123開(kāi)頭的所有文件,如http://www.vipshan.com/1234/、http://www.vipshan.com/123/1.html、http://www.vipshan.com/12345/1.html等都不能被抓取
User-agent: *Disallow: /123/
禁止爬蟲(chóng)訪問(wèn)/123/目錄下面的所有文件。
4.禁止爬蟲(chóng)訪問(wèn)某一類(lèi)文件:
User-agent: *
Disallow: /*.css$ 禁止訪問(wèn)所有css結(jié)尾的文件
Disallow: /*.js$ ?禁止訪問(wèn)所有js結(jié)尾的文件
Disallow: /*.php$ 禁止訪問(wèn)所有php結(jié)尾的文件
Disallow: /123/*.jpg$ 禁止訪問(wèn)/123/目錄下的jpg結(jié)尾的文件
PS:*表示所有,$表示結(jié)尾,上面的漢字不用寫(xiě)進(jìn)robots去!!!
5.禁止訪問(wèn)網(wǎng)站中的動(dòng)態(tài)頁(yè)面:
User-agent: *
Disallow: /*?*
Disallow: /123/*?* 禁止訪問(wèn)/123/目錄下的動(dòng)態(tài)頁(yè)面
PS:?表示動(dòng)態(tài)路徑,*表示所有。
6.禁止訪問(wèn)某些字母開(kāi)頭的目錄
可以巧用這個(gè)技巧來(lái)隱藏我們網(wǎng)站的一些目錄,例如網(wǎng)站后臺(tái)。假設(shè)www.vipshan.com的后臺(tái)目錄是/abcdef/可以這樣寫(xiě):
User-agent: *Disallow: /abc*
總結(jié)
以上是生活随笔為你收集整理的robots.txt文件的作用及写法 (搜索引擎)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 淘宝网哥弟女装评测替换
- 下一篇: ppt模板下载keyppt.cn