python3异步协程爬虫,simpyder
Simpyder - Simple Python Spider
Simpyder - 輕量級協程Python爬蟲
特點
輕量級:下載便利,依賴較少,使用簡單。
協程:單線程,通過協程實現并發。
可定制:簡單配置,適應各種爬取場合。
快速開始
下載
#使用pip3
pip3 installsimpyder --user
# 更新包
pip3 installsimpyder --upgrade
編碼
用戶只需要定義三個函數,實現三個模塊:
鏈接獲取
我們需要一個定義一個異步生成器,用于產生鏈接。
async def gen_url():
for each_id in range(100):
yield "https://www.biliob.com/api/video/{}".format(each_id)
鏈接解析
我們需要定義一個解析鏈接的函數。其中第一個參數是Response對象,也就是上述函數對應URL的訪問結果。
該函數需要返回一個對象,作為處理結果。
注意,與普通函數不同,這是一個協程函數。需要在前面加上async。代表該函數是異步的。
async def parse(response):
return response.xpath('//meta[@name="title"]/@content')[0]
數據導出
上面函數的處理結果將在這個函數中統一被導出。下列例子為直接在控制臺中打印導出結果。
保存需要IO操作,因此這個函數可能運行較慢,因此也需要是異步的。我們在前面添加async關鍵詞
async def save(item):
print(item)
然后將這些模塊組成一個Spider
首先導入爬蟲對象:
import AsynSpider from simpyder.spiders
你可以這樣組裝Spider
spider = AsyncSpider()
spider.gen_url = gen_url
spider.parse = parse
spider.save = save
接著就可以開始爬蟲任務
s.run()
你也可以通過構造函數進行一些配置
spider = AsyncSpider(name="TEST")
示例程序
from simpyder.spiders import AsynSpider
# new一個異步爬蟲
s = AsynSpider()
# 定義鏈接生成的生成器,這里是爬取800次百度首頁的爬蟲
def g():
count = 0
while count < 800:
count += 1
yield "https://www.baidu.com"
# 綁定生成器
s.gen_url = g
# 定義用于解析的異步函數,這里不進行任何操作,返回一段文本
async def p(res):
return "parsed item"
# 綁定解析器
s.parse = p
# 定義用于存儲的異步函數,這里不進行任何操作,但是返回2,表示解析出2個對象
async def s(item):
return 2
# 綁定存儲器
s.save = s
# 運行
s.run()
理論速率
運行上述代碼,可以得到單進程、并發數:64、僅進行計數操作的下載速率:
[2020-09-02 23:42:48,097][CRITICAL] @ Simpyder: user_agent: Simpyder ver.0.1.9
[2020-09-02 23:42:48,169][CRITICAL] @ Simpyder: concurrency: 64
[2020-09-02 23:42:48,244][CRITICAL] @ Simpyder: interval: 0
[2020-09-02 23:42:48,313][INFO] @ Simpyder: 已經爬取0個鏈接(0/min),共產生0個對象(0/min)
[2020-09-02 23:42:48,319][INFO] @ Simpyder: Start Crawler: 0
[2020-09-02 23:42:53,325][INFO] @ Simpyder: 已經爬取361個鏈接(4332/min),共產生658個對象(7896/min)
[2020-09-02 23:42:58,304][INFO] @ Simpyder: 已經爬取792個鏈接(5280/min),共產生1540個對象(10266/min)
[2020-09-02 23:43:03,304][INFO] @ Simpyder: 已經爬取1024個鏈接(4388/min),共產生2048個對象(8777/min)
[2020-09-02 23:43:05,007][CRITICAL] @ Simpyder: Simpyder任務執行完畢
[2020-09-02 23:43:05,008][CRITICAL] @ Simpyder: 累計消耗時間:0:00:16.695013
[2020-09-02 23:43:05,008][CRITICAL] @ Simpyder: 累計爬取鏈接:1024
[2020-09-02 23:43:05,009][CRITICAL] @ Simpyder: 累計生成對象:2048
總結
以上是生活随笔為你收集整理的python3异步协程爬虫,simpyder的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java插件自动保存浏览器书签_多浏览器
- 下一篇: C语言顺序结构程序设计PPT,C语言习题