什么是爬虫中的Robots协议
生活随笔
收集整理的這篇文章主要介紹了
什么是爬虫中的Robots协议
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
什么是爬蟲中的Robots協議?很多新手對此不是很清楚,為了幫助大家解決這個難題,下面小編將為大家詳細講解,有這方面需求的人可以來學習下,希望你能有所收獲。
爬蟲的盜亦有道Robots協議
爬蟲的規定
Robots協議
網站開發者對于網絡爬蟲的規范的公告,你可以不遵守可能存在法律風險,但盡量去遵守。
Robots協議:在網頁的根目錄+robots.txt
Robots協議的基本語法:
#注釋,*代表所有,/代表根目錄 User-agent:*#user-agent代表來源 Allow:/#代表運行爬取的內容 Disallow:/#代表不可爬取的目錄,如果是/后面沒有寫內容,便是其對應的訪問者不可爬取所有內容
并不是所有網站都有Robots協議。
如果一個網站不提供Robots協議,是說明這個網站對應所有爬蟲沒有限制。
類人行為可以不參考robots協議,比如我們寫的小程序訪問量很少,內容也少但是內容不能用于商業用途。
總的來說請準守Robots協議。
總結
以上是生活随笔為你收集整理的什么是爬虫中的Robots协议的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: php opcodevld,利用PHP扩
- 下一篇: 云服务器cvm是什么意思