Scrapy设置headers、cookies三种方法
生活随笔
收集整理的這篇文章主要介紹了
Scrapy设置headers、cookies三种方法
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
方法一:start_requests方法中添加cookies與headers:
1、重寫spider中的start_requests方法
瀏覽器中cookies是這樣的
Cookie:_T_WM=98075578786; WEIBOCN_WM=3349; H5_wentry=H5; backURL=https%3A%2F%2Fm.weibo.cn%2Fdetail%2F4396824548695177; ALF=1568417075; SCF=Ap5VqXy_BfNHBEUteiYtYDRa04jqF4QPJBULzWo7c1c_noO0GpnJW3BqhIkH7JXJSwWhL0qSg69_Vici5P7NbmY.; SUB=_2A25wUOt6DeRhGeFM41AT9y3LyDSIHXVTuvUyrDV6PUJbktANLVXzkW1NQL_2tT4ZmobAs5b6HbIQwSRXHjjiRkzj; SUBP=0033WrSXqPxfM725Ws9jqgMF55529P9D9WFWyDsTszIBJPBJ6gn7ccSM5JpX5K-hUgL.FoME1hzES0eNe0n2dJLoI0YLxK-L1K.L1KMLxK-L1KzLBoeLxK-L12BLBK2LxK-LBK-LB.BLxK-LBK-LB.BLxKnLB-qLBoBLxKnLB-qLBoBt; SUHB=0S7CWHWuRz1aWf; SSOLoginState=1565825835需要轉換為字典格式
轉換代碼:
def transform(self,cookies):cookie_dict = {}cookies = cookies.replace(' ','')list = cookies.split(';')for i in list:keys = i.split('=')[0]values = i.split('=')[1]cookie_dict[keys] = valuesreturn cookie_dict在start_request中新增
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'} cookies = {'_T_WM': '98075578786', 'WEIBOCN_WM': '3349', 'H5_wentry': 'H5', 'backURL': 'https%3A%2F%2Fm.weibo.cn%2Fdetail%2F4396824548695177', 'ALF': '1568417075', 'SCF': 'Ap5VqXy_BfNHBEUteiYtYDRa04jqF4QPJBULzWo7c1c_noO0GpnJW3BqhIkH7JXJSwWhL0qSg69_Vici5P7NbmY.', 'SUB': '_2A25wUOt6DeRhGeFM41AT9y3LyDSIHXVTuvUyrDV6PUJbktANLVXzkW1NQL_2tT4ZmobAs5b6HbIQwSRXHjjiRkzj', 'SUBP': '0033WrSXqPxfM725Ws9jqgMF55529P9D9WFWyDsTszIBJPBJ6gn7ccSM5JpX5K-hUgL.FoME1hzES0eNe0n2dJLoI0YLxK-L1K.L1KMLxK-L1KzLBoeLxK-L12BLBK2LxK-LBK-LB.BLxK-LBK-LB.BLxKnLB-qLBoBLxKnLB-qLBoBt', 'SUHB': '0S7CWHWuRz1aWf', 'SSOLoginState': '1565825835'}2、修改方法返回值
yield scrapy.Request(url=url, headers=headers, cookies=cookies, callback=self.parse)??樣例:
3、修改COOKIES_ENABLED
- 當COOKIES_ENABLED是注釋的時候scrapy默認沒有開啟cookie
- 當COOKIES_ENABLED沒有注釋設置為False的時候scrapy默認使用了settings里面的cookie
- 當COOKIES_ENABLED設置為True的時候scrapy就會把settings的cookie關掉,使用自定義cookie
所以需要在settings.py文件中設置COOKIES_ENABLED = True?
并且在settings.py文件中設置ROBOTSTXT_OBEY = False? #不遵守robotstxt協議
方法二:在setting.py文件中添加cookies與headers? ?--- 最簡單的方法
推薦使用這種方法,因為可以用shell進行調試
樣例:
方法三:激活DownloadMiddleware(下載器中間件)
參考鏈接:https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/downloader-middleware.html
總結
以上是生活随笔為你收集整理的Scrapy设置headers、cookies三种方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 超标量处理器设计 姚永斌 第9章 指令执
- 下一篇: 面向对象核心技术