用python进行多页数据爬取_Python Scrapy如何实现多页数据爬取?
Python Scrapy如何實現多頁數據爬取?
發布時間:2020-06-23 11:47:46
來源:億速云
閱讀:112
作者:清晨
這篇文章將為大家詳細講解有關Python Scrapy如何實現多頁數據爬取?,小編覺得挺實用的,因此分享給大家做個參考,希望大家閱讀完這篇文章后可以有所收獲。
1.先指定通用模板url = 'https://www.qiushibaike.com/text/page/%d/'#通用的url模板
pageNum = 1
2.對parse方法遞歸處理
parse第一次調用表示的是用來解析第一頁對應頁面中的數據
對后面的頁碼的數據要進行手動發送
if self.pageNum <= 5:
self.pageNum += 1
new_url = format(self.url%self.pageNum)
#手動請求(get)的發送
yield scrapy.Request(new_url,callback=self.parse)
完整示例
class QiubaiSpider(scrapy.Spider):
name = 'qiubai'
# allowed_domains = ['www.xxx.com']
start_urls = ['https://www.qiushibaike.com/text/']
url = 'https://www.qiushibaike.com/text/page/%d/'#通用的url模板
pageNum = 1
#parse第一次調用表示的是用來解析第一頁對應頁面中的段子內容和作者
def parse(self, response):
div_list = response.xpath('//*[@id="content-left"]/div')
all_data = []
for div in div_list:
author = div.xpath('./div[1]/a[2]/h3/text()').extract_first()
content = div.xpath('./a[1]/div/span//text()').extract()
content = ''.join(content)
# 將解析的數據存儲到item對象
item = QiubaiproItem()
item['author'] = author
item['content'] = content
# 將item提交給管道
yield item # item一定是提交給了優先級最高的管道類
if self.pageNum <= 5:
self.pageNum += 1
new_url = format(self.url%self.pageNum)
#手動請求(get)的發送
yield scrapy.Request(new_url,callback=self.parse)
關于Python Scrapy如何實現多頁數據爬取?就分享到這里了,希望以上內容可以對大家有一定的幫助,可以學到更多知識。如果覺得文章不錯,可以把它分享出去讓更多的人看到。
總結
以上是生活随笔為你收集整理的用python进行多页数据爬取_Python Scrapy如何实现多页数据爬取?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java cxf 不使用springmv
- 下一篇: fastjson反序列化过滤字段属性_原