爬虫技术python nutch_python爬虫,学习路径拆解及资源推荐(第三篇:工程化爬虫)...
本文的文字及圖片來源于網(wǎng)絡(luò),僅供學(xué)習(xí)、交流使用,不具有任何商業(yè)用途,版權(quán)歸原作者所有,如有問題請及時(shí)聯(lián)系我們以作處理
以下文章來源于騰訊云 作者:昱良
工程化爬蟲
掌握前面的技術(shù)你就可以實(shí)現(xiàn)輕量級的爬蟲,一般量級的數(shù)據(jù)和代碼基本沒有問題。
但是在面對復(fù)雜情況的時(shí)候表現(xiàn)不盡人意,此時(shí),強(qiáng)大的爬蟲框架就非常有用了。
首先是出身名門的Apache頂級項(xiàng)目Nutch,它提供了我們運(yùn)行自己的搜索引擎所需的全部工具。
支持分布式抓取,并有Hadoop支持,可以進(jìn)行多機(jī)分布抓取,存儲(chǔ)和索引。
另外很吸引人的一點(diǎn)在于,它提供了一種插件框架,使得其對各種網(wǎng)頁內(nèi)容的解析、各種數(shù)據(jù)的采集、查詢、集群、過濾等功能能夠方便的進(jìn)行擴(kuò)展。
其次是GitHub上眾人star的scrapy,scary是一個(gè)功能非常強(qiáng)大的爬蟲框架。
它不僅能便捷地構(gòu)建request,還有強(qiáng)大的 selector 能夠方便地解析 response,然而它最讓人驚喜的還是它超高的性能,讓你可以將爬蟲工程化、模塊化。
學(xué)會(huì)scrapy,你可以自己去搭建一些爬蟲框架,你就基本具備爬蟲工程師的思維了。
最后Pyspider作為人氣飆升的國內(nèi)大神開發(fā)的框架,滿足了絕大多數(shù)Python爬蟲的需求 —— 定向抓取,結(jié)構(gòu)化化解析。
它能在瀏覽器界面上進(jìn)行腳本的編寫,功能的調(diào)度和爬取結(jié)果的實(shí)時(shí)查看,后端使用常用的數(shù)據(jù)庫進(jìn)行爬取結(jié)果的存儲(chǔ)等。
其功能強(qiáng)大到更像一個(gè)產(chǎn)品而不是一個(gè)框架。
這是三個(gè)最有代表性的爬蟲框架,它們都有遠(yuǎn)超別人的有點(diǎn),比如Nutch天生的搜索引擎解決方案、Pyspider產(chǎn)品級的WebUI、Scrapy最靈活的定制化爬取。
建議先從最接近爬蟲本質(zhì)的框架scary學(xué)起,再去接觸人性化的Pyspider,為搜索引擎而生的Nutch。
推薦爬蟲框架資源:
總結(jié)
以上是生活随笔為你收集整理的爬虫技术python nutch_python爬虫,学习路径拆解及资源推荐(第三篇:工程化爬虫)...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python决策树生成规则_如何从sci
- 下一篇: postman cookie设置_接口鉴