當前位置：首頁 > 编程语言 > python >内容正文

python

python分布式爬虫及数据存储_分布式爬虫

發布時間：2025/3/15 python 18 豆豆

生活随笔收集整理的這篇文章主要介紹了 python分布式爬虫及数据存储_分布式爬虫小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

爬蟲學習使用指南

Auth: 王海飛

Data：2018-07-05

Email：779598160@qq.com

github：https://github.com/coco369/knowledge

前言

說到分布式系統的時候，要和集中式系統進行對比的學習，下面就先介紹下集中式系統，對比它們的優缺點進行學習。

集中式系統

集中式系統：

集中式系統中整個項目就是一個獨立的應用，整個應用也就是整個項目，所有的業務邏輯功能都在一個應用里面。如果遇到并發的瓶頸的時候，就多增加幾臺服務器來部署項目，以此來解決并發分問題。在nginx中進行負載均衡即可。

缺點：

a) 不易于擴展

b) 如果發現你的項目代碼中有bug的話，那么你的所有的服務器中的項目代碼都是有問題的，這時候要更新這個bug的時候，就需要同時更新所有的服務器了。

優點：

維護方便

分布式系統

分布式系統:

分布式系統中，我們的整個項目可以拆分成很多業務塊，每一個業務塊單獨進行集群的部署。這樣就將整個項目分開了，在進行拓展的時候，系統是很容易橫向拓展的。在并發的時候，也很好的將用戶的并發量提上去。

缺點：

a) 項目拆分的過于復雜，給運維帶來了很高的維護成本

b) 數據的一致性，分布式事務，分布式鎖等問題不能得到很好的解決

優點：

a) 一個業務模塊崩了，并不影響其他的業務

b) 利于擴展

c) 在上線某個新功能的時候，只需要新增對應的分布式的節點即可，測試也只需要測試該業務功能即可。很好的避免了測試在上線之前需要將整個系統進行全方面的測試

1. scrapy的分布式原理

我們還是先回顧下scrapy的運行原理的構造圖:

該圖很好的闡釋了在不是scrapy的服務器中的運行結構圖，在維護爬取的url隊列的時候，使用scheduler進行調度的。那么如果要修改為分布式的scrapy爬蟲的話，其實就是將爬取的隊列進行共享，多臺部署了scrapy爬蟲的服務器共享該爬取隊列。

2. 分布式架構：

master-主機：維護爬蟲隊列。

slave-從機：數據爬取，數據處理，數據存儲。

3. 搭建分布式爬蟲

我們使用scrapy_redis進行分布式爬蟲的搭建。

scrapy_redis是scrapy框架下的一個插件，通過重構調度器來使我們的爬蟲運行的更快

3.1 安裝

安裝scrapy_redis：

pip install scrapy_redis

安裝redis：

# redis可以僅在master主機上安裝

pip install redis

安裝數據存儲數據庫，采用mongodb 見: 安裝配置地址

3.2 redis

在維護爬蟲隊列的時候，很多爬蟲項目同時讀取隊列中的信息，就造成了可能讀數據重復了，比如同時讀取同一個url。為了避免這種情況，我們建議使用redis去維護隊列。而且redis的集合中的元素還不是重復的，可以很好的利用這一點，進行url爬取地址的存儲

3.3 分布式爬蟲改造

3.3.1 master

master主機改造：在master主機上安裝redis并啟動，最好設置密碼

spiders文件中定義的爬蟲py文件修改如下：

如下爬蟲實現的功能是拿到需要爬取的成都各大區縣的二手房頁面url地址，包括分頁的地址。并將數據存儲到redis中

import json

from scrapy import Request

from scrapy.spiders import Spider

from scrapy.selector import Selector

from lianjiaspider.items import LianjiaspiderItem, MasterItem

class LianJiaSpider(Spider):

name = 'lianjia'

# allowed_domains = ['lianjia.com']

domains_url = 'https://cd.lianjia.com'

start_linjia_url = 'https://cd.lianjia.com/ershoufang'

def start_requests(self):

yield Request(self.start_linjia_url)

def parse(self, response):

sel = Selector(response)

ershoufang_aera = sel.xpath('//div[@data-role="ershoufang"]')

area_info = ershoufang_aera.xpath('./div/a')

for area in area_info:

area_href = area.xpath('./@href').extract()[0]

area_name = area.xpath('./text()').extract()[0]

yield Request(self.domains_url + area_href,

callback=self.parse_house_info,

meta={'name': area_name, 'href': area_href})

def parse_house_info(self, response):

sel = Selector(response)

page_box = sel.xpath('//div[@class="page-box house-lst-page-box"]/@page-data').extract()

total_page = json.loads(page_box[0]).get('totalPage')

for i in range(1, int(total_page)+1):

item = MasterItem()

item['url'] = self.domains_url + response.meta.get('href') + 'pg' + str(i)

yield item

定義Item

接收一個地址url參數：

class MasterItem(scrapy.Item):

url = scrapy.Field()

新增redis存儲中間件

class MasterPipeline(object):

def __init__(self):

# 鏈接redis

self.r = redis.Redis(host='127.0.0.1', port=6379)

def process_item(self, item, spider):

# 向redis中插入需要爬取的鏈接地址

self.r.lpush('lianjia:start_urls', item['url'])

3.3.2 slave改造：

slave從機改造：slave從機訪問redis，直接去訪問master主機上的redis的地址，以及端口密碼等信息

spiders爬蟲文件改造

繼承改為繼承Redisspider

from scrapy_redis.spiders import RedisSpider

具體代碼優化如下：

from scrapy_redis.spiders import RedisSpider

from scrapy.selector import Selector

from lianjiaspider.items import LianjiaspiderItem

class LianJiaSpider(RedisSpider):

name = 'lianjia'

# 指定訪問redis的爬取urls的隊列

redis_key = 'lianjia:start_urls'

def parse(self, response):

sel = Selector(response)

lis = sel.xpath('//html/body/div[4]/div[1]/ul/li[@class="clear"]')

for li in lis:

item = LianjiaspiderItem()

item['house_code'] = li.xpath('./a/@data-housecode').extract()[0]

if li.xpath('./a/img/@src').extract():

item['img_src'] = li.xpath('./a/img/@src').extract()[0]

if li.xpath('./div/div/a/text()').extract():

item['title'] = li.xpath('./div/div/a/text()').extract()[0]

item['address'] = li.xpath('./div/div[2]/div/a/text()').extract()

item['info'] = li.xpath('./div/div[2]/div/text()').extract()

item['flood'] = li.xpath('./div/div[3]/div/text()').extract()

item['tag'] = li.xpath('.//div[@class="tag"]/span/text()').extract()

item['type'] = 'ershoufang'

item['city'] = '成都'

yield item

def split_house_info(self, info):

return [i.strip() for i in info.split('|')[1:]]

settings.py配置改造

新增如下的配置：

# scrapy-redis

REDIS_URL = 'redis://:yzd@127.0.0.1:6379' # for master

# REDIS_URL = 'redis://:yzd@10.140.0.2:6379' # for slave (master's ip)

# SCHEDULER 是任務分發與調度，把所有的爬蟲開始的請求都放在redis里面，所有爬蟲都去redis里面讀取請求。

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 如果這一項設為True，那么在Redis中的URL隊列不會被清理掉，但是在分布式爬蟲共享URL時，要防止重復爬取。如果設為False，那么每一次讀取URL后都會將其刪掉，但弊端是爬蟲暫停后重新啟動，他會重新開始爬取。

SCHEDULER_PERSIST = True

# REDIS_START_URLS_AS_SET指的是使用redis里面的set類型(簡單完成去重)，如果你沒有設置，默認會選用list。

REDIS_START_URLS_AS_SET = True

# DUPEFILTER_CLASS 是去重隊列，負責所有請求的去重

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 爬蟲的請求調度算法，有三種可供選擇

# scrapy_redis.queue.SpiderQueue：隊列。先入先出隊列，先放入Redis的請求優先爬取；

# scrapy_redis.queue.SpiderStack：棧。后放入Redis的請求會優先爬取；

# scrapy_redis.queue.SpiderPriorityQueue：優先級隊列。根據優先級算法計算哪個先爬哪個后爬

SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"

# 設置鏈接redis的配置，或者如下分別設置端口和IP地址

REDIS_URL = 'redis://127.0.0.1:6379'

# 分布式爬蟲設置Ip端口

REDIS_HOST = '127.0.0.1'

REDIS_PORT = 6379

總結

以上是生活随笔為你收集整理的python分布式爬虫及数据存储_分布式爬虫的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： crt脚本怎么添加等待时间_secure
下一篇： dataloader 源码_pytorc