python爬虫学习日记(1) scrapy爬取时,报错Filtered offsite request
使用scrapy框架抓取某妹子圖網(wǎng)時,只能抓取第一頁,第二頁報錯
[scrapy.spidermiddlewares.offsite] DEBUG: Filtered offsite request to 'www.xxxx.com': <GET http://www.xxxx.com/ent/meinvtupian/list_11_2.html>
度娘找到答案:
因為 Request中請求的 URL 和 allowed_domains 中定義的域名沖突,所以將Request中請求的URL過濾掉了,無法請求
yield scrapy.Request(url,callback=self.parse)
解決辦法一:? ? 在 Request 請求參數(shù)中,設(shè)置 dont_filter = True ,Request 中請求的 URL 將不通過 allowed_domains 過濾。
????????????????yield scrapy.Request(url,callback=self.parse,dont_filter=True)
解決辦法二: 將allowed_domains = ['www.xxxx.com']更改為allowed_domains = ['xxxx.com'] 即更換為對應(yīng)的一級域名
原文鏈接:https://blog.csdn.net/weixin_41607151/article/details/80515030
總結(jié)
以上是生活随笔為你收集整理的python爬虫学习日记(1) scrapy爬取时,报错Filtered offsite request的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 极客时间学习笔记☞《苏杰的产品创新课》(
- 下一篇: RHCE培训笔记——DNS基础