當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

scrapy爬取动态网页_scrapy_splash 设置随机请求头

發(fā)布時間：2023/12/4 编程问答 25 豆豆

生活随笔收集整理的這篇文章主要介紹了 scrapy爬取动态网页_scrapy_splash 设置随机请求头小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

本文為

霾大：scrapy_splash 爬取 js 加載網(wǎng)頁初體驗?zhuanlan.zhihu.com

的補充

在上面的文章中我們僅僅是初步完成了 scrapy_splash 的簡單使用

接下來我們將介紹如何是使得 splash 在 render.html （默認）訪問網(wǎng)頁時也能動態(tài)調(diào)整其請求頭等（代理等同理）

往常來說，我們設(shè)置 scrapy 的隨機請求頭是在中間件處，沿著這個思路，同理我們亦可以沿著這個思路設(shè)置，使得爬蟲解析與反爬手段分離。

步驟

首先在 settings 文件放入一批 UA

USER_AGENTS = ['Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50','Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50','Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0','Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)','Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36','Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11','Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11','Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/30.0.1599.101 Safari/537.36','Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko' ]

2. 修改 middlewares 文件

import random from scrapy_test.settings import USER_AGENTSclass RandomUA(object):def process_request(self, request, spider):ua = random.choice(USER_AGENTS)request.headers.setdefault('User-Agent', ua)

3. 在 settings 文件啟用我們剛定義的中間件

DOWNLOADER_MIDDLEWARES = {# 'scrapy_test.middlewares.ScrapyTestDownloaderMiddleware': 543,'scrapy_test.middlewares.RandomUA': 543, }

運行結(jié)果及解析

確認當(dāng)前的 request 類型為 SplashRequest

匹配到目標(biāo)數(shù)據(jù)，配置 headers 成功

代碼傳送門

LZC6244/scrapy_splash_test?github.com

原創(chuàng)文章，轉(zhuǎn)載請保留或注明出處！

創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎勵來咯，堅持創(chuàng)作打卡瓜分現(xiàn)金大獎

總結(jié)

以上是生活随笔為你收集整理的scrapy爬取动态网页_scrapy_splash 设置随机请求头的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： python函数返回多个值时的数据类型是
下一篇： python查看图片的源代码_pytho