爬虫如何监听插件_Go 爬虫之 colly 从入门到不放弃指南
Go語言中文網,致力于每日分享編碼、開源等知識,歡迎關注我,會有意想不到的收獲!
最近發現知乎上感興趣的問題越來越少,于是準備聚合下其他平臺技術問答,比如 segmentfault、stackoverflow 等。
要完成這個工作,肯定是離不開爬蟲的。我就順便抽時間研究了 Go 的一款爬蟲框架 colly。
概要介紹
colly 是 Go 實現的比較有名的一款爬蟲框架,而且 Go 在高并發和分布式場景的優勢也正是爬蟲技術所需要的。它的主要特點是輕量、快速,設計非常優雅,并且分布式的支持也非常簡單,易于擴展。
如何學習
爬蟲最有名的框架應該就是 Python 的 scrapy,很多人最早接觸的爬蟲框架就是它,我也不例外。它的文檔非常齊全,擴展組件也很豐富。當我們要設計一款爬蟲框架時,常會參考它的設計。之前看到一些文章介紹 Go 中也有類似 scrapy 的實現。
相比而言,colly 的學習資料就少的可憐了。剛看到它的時候,我總會情不自禁想借鑒我的 scrapy 使用經驗,但結果發現這種生搬硬套并不可行。
到此,我們自然地想到去找些文章閱讀,但結果是 colly 相關文章確實有點少,能找到的基本都是官方提供的,而且看起來似乎不是那么完善。沒辦法,慢慢啃吧!官方的學習資料通常都會有三處,分別是文檔、案例和源碼。
今天,暫時先從官方文檔角度吧!正文開始。
官方文檔
官方文檔介紹著重使用方法,如果是有爬蟲經驗的朋友,掃完一遍文檔很快。我花了點時間將官網文檔的按自己的思路整理了一版。
主體內容不多,涉及安裝、快速開始、如何配置、調試、分布式爬蟲、存儲、運用多收集器、配置優化、擴展。
其中的每篇文檔都很短小,甚至是少的基本都不用翻頁滾動。
如何安裝
colly 的安裝和其他的 Go 庫安裝一樣簡單。如下:
go get -u github.com/gocolly/colly一行命令搞定。So easy!
快速開始
我們來通過一個 hello word 案例快速體驗下 colly 的使用。步驟如下:
第一步,導入 colly。
import "github.com/gocolly/colly"第二步,創建 collector。
c := colly.NewCollector()第三步,事件監聽,通過 callback 執行事件處理。
// Find and visit all linksc.OnHTML("a[href] 創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的爬虫如何监听插件_Go 爬虫之 colly 从入门到不放弃指南的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习教程
- 下一篇: 欧洲杯直播助PPTV日均流量登顶视频行业