scrapy 第一个案例(爬取腾讯招聘职位信息)
生活随笔
收集整理的這篇文章主要介紹了
scrapy 第一个案例(爬取腾讯招聘职位信息)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
import scrapy
import jsonclass TzcSpider(scrapy.Spider):# spider的名字,唯一name = 'tzc'# 起始地址start_urls = ['https://hr.tencent.com/position.php?keywords=python&tid=0&lid=2268']# 每個url爬取之后會調用這個方法def parse(self, response):tr = response.xpath( '//table[@class="tablelist"]/tr[@class = "even"]|//table[@class="tablelist"]/tr[@class = "odd"]')with open('info.json','a') as f:for i in tr:data = {"jobName": i.xpath('./td[1]/a/text()').extract_first(),"jobType":i.xpath('./td[2]/text()').extract_first(),"Num":i.xpath('./td[3]/text()').extract_first(),"Place":i.xpath('./td[4]/text()').extract_first(),"Time":i.xpath('./td[5]/text()').extract_first()}data = json.dumps(data,ensure_ascii=False)f.write(data)f.write('\n')# 尋找下一頁標簽url_next = response.xpath('//a[@id = "next"]/@href').extract_first()# 提取的是段標簽,需要加上域名url_next = 'https://hr.tencent.com/{}'.format(url_next)# 返回下一頁地址,scrapy會遞歸return scrapy.Request(url_next)
?
轉載于:https://www.cnblogs.com/cxhzy/p/10299696.html
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的scrapy 第一个案例(爬取腾讯招聘职位信息)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: [网络流24题] 航空路线问题 (费用流
- 下一篇: 【抽象代数】 03