python3 asyncio 爬虫_python3 asyncio异步新浪微博爬虫WeiboSpider
生活随笔
收集整理的這篇文章主要介紹了
python3 asyncio 爬虫_python3 asyncio异步新浪微博爬虫WeiboSpider
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
一些廢話
之前寫的用python3+urllib寫的多線程微博(傳送門),后面發現登錄賬號頻繁被403,所以解決登錄問題迫在眉睫。而且python的“多線程”并不那么多線程,最近因為剛需,需要穩定的微博爬蟲,所以琢磨了一下使用selenium+aiohttp+redis寫了一個使用asyncio的新浪爬蟲。
簡介
這里不多廢話,大概介紹一下怎么做的。大致是:
登錄
通過weibo.com登錄界面登錄,因為weibo.cn登錄如果需要驗證的話是要類似于解鎖那樣驗證的,不好做。
而weibo.com只要輸入驗證碼,而驗證碼可以通過yundama來驗證,yundama也不貴,驗證一次大概一分錢吧,登錄成功后,在去訪問weibo.cn,新浪會自行轉換weibo.com的cookies到weibo.cn的cookies
然后把cookies保存在redis共享
抓取
使用了aiohttp,畢竟python的協程比多線程更給力,爬蟲就是個頻繁io的過程,自然用協程比多線程快了不少。
解析用的是bs4,解析后的數據放到kafka上,想存哪存哪~
talk is cheap, show you the code
這里就不說具體怎么做和使用了,README.md上有使用不走,感興趣的看源碼去吧。
總結
以上是生活随笔為你收集整理的python3 asyncio 爬虫_python3 asyncio异步新浪微博爬虫WeiboSpider的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python tkinter图片为什么要
- 下一篇: python抽荣耀水晶_教你2种免费拿荣