“盗”亦有道,关于robots协议
robots.txt
robots協議(全名為“網絡爬蟲排除標準”)(Robots Exclusion Protocol)網站通過Robots協議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
對于robots協議如何遵守,當前較為普遍的觀點是:
對于小程序這樣爬取量少的小型爬蟲,可以無視robots協議。(我們編程愛好者知道這一點就足夠了)
一般對于像搜索引擎這樣,對全網進行爬取的大型爬蟲,如果無視robots協議是有法律風險的。
robots協議一般位于網站的根目錄之下,我們要查看某個網站的robots協議,可以在該網站的根目錄的url后面加"/robots.txt"。
例如:(以下是幾個知名網站的robots協議地址)
http://www.baidu.com/robots.txt
http://www.qq.com/robots.txt
http://www.sina.com/robots.txt
如果網站沒有robots協議,就說明其默許任何爬蟲對其網站信息進行爬取(這樣也有好處,可以便于所有搜索引擎將你的網站上的信息提供給每一個人)
如何理解robots協議的內容?
我們訪問一個含有robots協議的網頁,
User-agent: 后面是所限制的爬蟲的名稱,如果是一個"*"號,則表示針對所有爬蟲
而后面的Disallow則是限制的內容,"/"表示根目錄
我們訪問鏈家網的robots協議(如下):
?
User-agent: Baiduspider Allow:/User-agent: Googlebot Allow:/User-agent: 360Spider Allow:/User-agent: haosouspider Allow:/User-agent: bingbot Allow:/User-agent: msnbot Allow:/User-agent: msnbot-media Allow:/User-agent: Sosospider Allow:/User-agent: Sogou News Spider Allow:/User-agent: Yahoo! Slurp China Allow:/User-agent: Yahoo! Allow:/User-agent: YoudaoBot Allow:/User-agent: YodaoBot Allow:/User-agent: Sogou News Spider Allow:/User-agent: bingbot Allow:/User-agent: YisouSpider Allow:/User-agent: ia_archiver Allow:/User-agent: EasouSpider Allow:/User-agent: JikeSpider Allow:/User-agent: EtaoSpider Allow:/User-agent:* Disallow:/什么意思呢?意思就是以上列舉的爬蟲是“友好爬蟲”,鏈家網對這些爬蟲允許其爬取所有資源,而對于非友好爬蟲,則禁止其爬取任何資源(但是小程序除外,可以無視robots協議,只要不把數據用作商業用途即可)
?
轉載于:https://www.cnblogs.com/Shiko/p/10827585.html
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的“盗”亦有道,关于robots协议的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: addShutdownHook钩子
- 下一篇: shell脚本基本命令1