Robots协议
好的網絡爬蟲, 首先需要遵守Robots協議, Robots協議:也稱為爬蟲協議,機器人協議, 全稱是"網絡爬蟲排除標準", 通過Robots協議高速搜索引擎哪些頁面可以抓取,哪些頁面不能抓取
在網站根目錄下放一個robots.txt文本文件(如https://www.taobao.com/robots.txt),里面可以指定不同的網絡爬蟲能訪問的頁面和禁止訪問的頁面,指定的頁面由正則表達式表示。網絡爬蟲在采集這個網站之前,首先獲取到這個robots.txt文本文件,然后解析到其中的規則,然后根據規則來采集網站的數據。
1. Robots協議規則
注意: 一個英文要大寫,冒號是英文狀態下,冒號后面有一個空格,"/"代表整個網站
2. Robots協議舉例
禁止所有機器人訪問
User-agent: *
Disallow: /
允許所有機器人訪問
User-agent: *
Disallow:
禁止特定機器人訪問
User-agent: BadBot
Disallow: /
允許特定機器人訪問
User-agent: GoodBot
Disallow:
禁止訪問特定目錄
User-agent: *
Disallow: /images/
僅允許訪問特定目錄
User-agent: *
Allow: /images/
Disallow: /
禁止訪問特定文件
User-agent: *
Disallow: /*.html$
僅允許訪問特定文件
User-agent: *
Allow: /*.html$
Disallow: /
轉自: https://www.jianshu.com/p/2a1458eb3c23
總結
- 上一篇: 免费域名
- 下一篇: Jenkins 安装与使用--实例