爬虫的配置、启动和终止
生活随笔
收集整理的這篇文章主要介紹了
爬虫的配置、启动和终止
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
爬蟲的配置、啟動和終止
Spider
Spider是爬蟲啟動的入口。在啟動爬蟲之前,我們需要使用一個PageProcessor創建一個Spider對象,然后使用run()進行啟動。
同時Spider的其他組件(Downloader、Scheduler、Pipeline)都可以通過set方法來進行設置。
???????爬蟲配置Site
Site.me()可以對爬蟲進行一些配置配置,包括編碼、抓取間隔、超時時間、重試次數等。在這里我們先簡單設置一下:重試次數為3次,抓取間隔為一秒。
站點本身的一些配置信息,例如編碼、HTTP頭、超時時間、重試策略等、代理等,都可以通過設置Site對象來進行配置。
???????
總結
以上是生活随笔為你收集整理的爬虫的配置、启动和终止的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: WebMagic功能——XPath、CS
- 下一篇: 爬虫分类——通用网络爬虫、聚焦网络爬虫、