python分布式爬虫系统_三种分布式爬虫系统的架构方式
分布式爬蟲系統廣泛應用于大型爬蟲項目中,力求以最高的效率完成任務,這也是分布式爬蟲系統的意義所在。
分布式系統的核心在于通信,介紹三種分布式爬蟲系統的架構思路,都是圍繞通信開始,也就是說有多少分布式系統的通信方式就有多少分布式爬蟲系統的架構思路。
Redis
利用redis做分布式系統,最經典的就是scrapy-Redis,這是比較成熟的框架。同時我們也可以利用Redis的隊列功能或者訂閱發布功能來打造自己的分布式系統。
image
Redis作為通信載體的優點是讀寫迅速,對爬蟲的速度影響可忽略不 計,使用比較普遍。
主程序示例:
import scrapyfrom scrapy.http import Requestfrom scrapy.selector import HtmlXPathSelectorfrom scrapy.dupefilter import RFPDupeFilterfrom scrapy.core.scheduler import Schedulerimport redisfrom ..items import XiaobaiItemfrom scrapy_redis.spiders import RedisSpiderclass RenjianSpider(RedisSpider): name = 'baidu' allowed_domains = ['baidu.com'] def parse(self, response): news_list = response.xpath('//*[@id="content-list"]/div[@class="item"]') for news in news_list: content = response.xpath('.//div[@class="part1"]/a/text()').extract_first().strip() url = response.xpath('.//div[@class="part1"]/a/@href').extract_first() yield XiaobaiItem(url=url,content=content) yield Request(url='http://dig..com/',callback=self.parse)
2.RabbitMQ
RabbitMQ是比較靠譜的消息中間件,得益于它的確認機制,當一條消息消費后如果設置確定模式,那么確認后才會繼續消費,如果不確定認,那么這個任務將分配給其他消費者。
image
基于這種確認機制,可以在高可靠性和高數據要求情景中,避免數據抓取的遺漏和丟失。
其設計思路應該是基于mq設計兩個接口,一個用于URL的存放,一個用戶URL的獲取,同時基于Redis的URL去重,通過類似scrapy-redis 的調度使爬蟲運行。
主程序示例:
import pikaclass RabbitMQBASE: def __new__(cls, *args, **kw): if not hasattr(cls, '_instance'): org = super(RabbitMQBASE, cls) cls._instance = org.__new__(cls) return cls._instance def __init__(self, use='root', pwd='111'): user_pwd = pika.PlainCredentials(use, pwd) self.s_conn = pika.BlockingConnection( pika.ConnectionParameters(host='1.1.1.1', heartbeat_interval=3600, credentials=user_pwd)) def channel(self): return self.s_conn.channel() def close(self): """關閉連接""" self.s_conn.close() @staticmethod def callback(ch, method, properties, body): print(" [消費者] %r" % body)class RabbitMQ(RabbitMQBASE): """ type_:交換機類型fanout、direct、topic exchange:交換機名字 queue_name:隊列名字,為空則隨機命名 exclusive:隊列是否持久化False持久,True不持久 key_list:消費者的交換機、隊列綁定的關鍵詞列表 key:生產者路由的關鍵詞 no_ack:是否確認消息True不確定,False確定 """ def __init__(self, use='root', pwd='Kw7pGR4xDD1CsP*U', type_='direct', exchange='test', queue_name=None, exclusive=True, key_list=['test'], key='test', no_ack=True): RabbitMQBASE.__init__(self, use=use, pwd=pwd) self.type_ = type_ self.exchange = exchange self.queue_name = queue_name self.exclusive = exclusive self.key = key self.key_list = key_list self.no_ack = no_ack def rabbit_get(self): """消費者""" channel = self.channel() channel.exchange_declare(exchange=self.exchange, exchange_type=self.type_) if self.queue_name == None: result = channel.queue_declare(exclusive=self.exclusive) self.queue_name = result.method.queue if self.type_ != 'fanout': for key in self.key_list: channel.queue_bind(exchange=self.exchange, # 將交換機、隊列、關鍵字綁定 queue=self.queue_name, routing_key=key) channel.basic_consume(RabbitMQBASE.callback, queue=self.queue_name, no_ack=self.no_ack) channel.start_consuming() def rabbit_put(self, message='hello word'): """生產者""" channel = self.channel() channel.exchange_declare(exchange=self.exchange, exchange_type=self.type_) if self.type_ == 'fanout': self.key = "" channel.basic_publish(exchange=self.exchange, routing_key=self.key, body=message) channel.close()
3.Celery
celery典型的分布式任務隊列,常用于異步操作中,如tornado、Django的異步任務中,用celery設計分布式爬蟲系統,往往結合網絡框架,打造一個爬蟲任務接口,提供給其他人使用。
image
同時celery在定時任務方面有著優勢,只需要在配置文件中設置一下,就可以定期執行任務,不必自己寫定時操作。
celery使用消息中間件,而這個消息中間件,可以使用Redis也可以使用RabbitMQ,但他的調度不必擔心,已經封裝。
主程序示例:
# -*- coding:utf-8 -*-from celery import Celeryapp = Celery("tasks")app.config_from_object("celeryconfig") # 指定配置文件@app.taskdef taskA(x, y): return x + y@app.taskdef taskB(x, y, z): return x + y + z@app.taskdef add(x, y): return x + y
注意:上面的程序片段只是片段,用于示例。
綜上我們應該清楚在不同的任務場景中使用甚至如何設計自己的爬蟲系統,分布式爬蟲系統的核心是不同主機的通信。
ID:Python之戰
|作|者|公(zhong)號:python之戰
專注Python,專注于網絡爬蟲、RPA的學習-踐行-總結
喜歡研究技術瓶頸并分享,歡迎圍觀,共同學習。
獨學而無友,則孤陋而寡聞!
總結
以上是生活随笔為你收集整理的python分布式爬虫系统_三种分布式爬虫系统的架构方式的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 斗地主残局13关怎么过(斗罗大陆斗怎么读
- 下一篇: 如何解读服务器内存RAM参数以及分辨各种