scrapy爬取动态网页_scrapy_splash 设置随机请求头
生活随笔
收集整理的這篇文章主要介紹了
scrapy爬取动态网页_scrapy_splash 设置随机请求头
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
本文為
霾大:scrapy_splash 爬取 js 加載網(wǎng)頁初體驗?zhuanlan.zhihu.com的補充
在上面的文章中我們僅僅是初步完成了 scrapy_splash 的簡單使用
接下來我們將介紹如何是使得 splash 在 render.html (默認)訪問網(wǎng)頁時也能動態(tài)調(diào)整其請求頭等(代理等同理)
往常來說,我們設(shè)置 scrapy 的隨機請求頭是在中間件處,沿著這個思路,同理我們亦可以沿著這個思路設(shè)置,使得爬蟲解析與反爬手段分離。
步驟
2. 修改 middlewares 文件
import random from scrapy_test.settings import USER_AGENTSclass RandomUA(object):def process_request(self, request, spider):ua = random.choice(USER_AGENTS)request.headers.setdefault('User-Agent', ua)3. 在 settings 文件啟用我們剛定義的中間件
DOWNLOADER_MIDDLEWARES = {# 'scrapy_test.middlewares.ScrapyTestDownloaderMiddleware': 543,'scrapy_test.middlewares.RandomUA': 543, }運行結(jié)果及解析
確認當(dāng)前的 request 類型為 SplashRequest匹配到目標(biāo)數(shù)據(jù),配置 headers 成功推薦閱讀
代碼傳送門
LZC6244/scrapy_splash_test?github.com原創(chuàng)文章,轉(zhuǎn)載請保留或注明出處!
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯,堅持創(chuàng)作打卡瓜分現(xiàn)金大獎總結(jié)
以上是生活随笔為你收集整理的scrapy爬取动态网页_scrapy_splash 设置随机请求头的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python函数返回多个值时的数据类型是
- 下一篇: python查看图片的源代码_pytho