爬虫工具简单整理
1、crawlzilla
crawlzilla 是一個幫你輕松建立搜索引擎的自由軟件,有了它,你就不用依靠商業(yè)公司的搜索引擎,也不用再煩惱公司內(nèi)部網(wǎng)站資料索引的問題。
由 nutch 專案為核心,并整合更多相關(guān)套件,并卡發(fā)設(shè)計(jì)安裝與管理UI,讓使用者更方便上手。
crawlzilla 除了爬取基本的 html 外,還能分析網(wǎng)頁上的文件,如( doc、pdf、ppt、ooo、rss )等多種文件格式,讓你的搜索引擎不只是網(wǎng)頁搜索引擎,而是網(wǎng)站的完整資料索引庫。
擁有中文分詞能力,讓你的搜索更精準(zhǔn)。
crawlzilla的特色與目標(biāo),最主要就是提供使用者一個方便好用易安裝的搜索平臺。
- 授權(quán)協(xié)議: Apache License 2
- 開發(fā)語言: Java JavaScript SHELL
- 操作系統(tǒng): Linux
- 項(xiàng)目主頁: https://github.com/shunfa/crawlzilla
- 下載地址: http://sourceforge.net/projects/crawlzilla/
- 特點(diǎn):安裝簡易,擁有中文分詞功能
2、Heritrix
Heritrix 是一個由 java 開發(fā)的、開源的網(wǎng)絡(luò)爬蟲,用戶可以使用它來從網(wǎng)上抓取想要的資源。其最出色之處在于它良好的可擴(kuò)展性,方便用戶實(shí)現(xiàn)自己的抓取邏輯。
Heritrix采用的是模塊化的設(shè)計(jì),各個模塊由一個控制器類(CrawlController類)來協(xié)調(diào),控制器是整體的核心。
- 代碼托管:https://github.com/internetarchive/heritrix3
- 授權(quán)協(xié)議: Apache
- 開發(fā)語言: Java
- 操作系統(tǒng): 跨平臺
- 特點(diǎn):嚴(yán)格遵照robots文件的排除指示和META robots標(biāo)簽
3、webmagic
webmagic的是一個無須配置、便于二次開發(fā)的爬蟲框架,它提供簡單靈活的API,只需少量代碼即可實(shí)現(xiàn)一個爬蟲。
webmagic采用完全模塊化的設(shè)計(jì),功能覆蓋整個爬蟲的生命周期(鏈接提取、頁面下載、內(nèi)容抽取、持久化),支持多線程抓取,分布式抓取,并支持自動重試、自定義UA/cookie等功能。
webmagic包含強(qiáng)大的頁面抽取功能,開發(fā)者可以便捷的使用css selector、xpath和正則表達(dá)式進(jìn)行鏈接和內(nèi)容的提取,支持多個選擇器鏈?zhǔn)秸{(diào)用。
webmagic的使用文檔:http://webmagic.io/docs/
查看源代碼:http://git.oschina.net/flashsword20/webmagic
- 授權(quán)協(xié)議: Apache
- 開發(fā)語言: Java
- 操作系統(tǒng): 跨平臺
- 特點(diǎn):功能覆蓋整個爬蟲生命周期,使用Xpath和正則表達(dá)式進(jìn)行鏈接和內(nèi)容的提取。
- 備注:這是一款國產(chǎn)開源軟件,由 黃億華貢獻(xiàn)
4、ThinkUp
ThinkUp 是一個可以采集推特,facebook等社交網(wǎng)絡(luò)數(shù)據(jù)的社會媒體視角引擎。通過采集個人的社交網(wǎng)絡(luò)賬號中的數(shù)據(jù),對其存檔以及處理的交互分析工具,并將數(shù)據(jù)圖形化以便更直觀的查看。
- 授權(quán)協(xié)議: GPL
- 開發(fā)語言: PHP
- 操作系統(tǒng): 跨平臺
- github源碼:https://github.com/ThinkUpLLC/ThinkUp
火車頭: 功能全,歷史悠久,但配置太過復(fù)雜,且功能眾多很難掌握,但確實(shí)功能很全面,是通用采集軟件,簡單的頁面什么都可以采集。
網(wǎng)絡(luò)礦工: 推出時間不長,略微不夠穩(wěn)定,但其提供的數(shù)據(jù)采集和數(shù)據(jù)加工何為一體的功能很不錯。
有訊軟件:實(shí)際上它并不是提供軟件,而是提供采集服務(wù)。你只要告訴他們要采集哪里的數(shù)據(jù),和要采集的具體內(nèi)容,其它什么都不需要懂,也不需要做,他們就會把采集到的數(shù)據(jù)提供給你們,而且還可以滿足你的任何數(shù)據(jù)處理要求。
網(wǎng)絡(luò)神采:同樣也是一款歷史悠久的軟件,采集方面也很強(qiáng)大,其他方面沒有太深的影響。
狂人、三人行,未用過,但據(jù)說采集論壇和博客是很強(qiáng)悍的,采集其他類型的數(shù)據(jù)和稍微復(fù)雜點(diǎn)的數(shù)據(jù)就不行了。
gooseeker:好像是提供在線采集的,沒用過,它們的網(wǎng)站看不懂。但據(jù)說也還不錯。
個人覺得:如果你是采集純靜態(tài)頁面,且數(shù)據(jù)結(jié)構(gòu)不是很復(fù)雜的那種,也懂點(diǎn)技術(shù)的,那就用火車頭吧。
原文:http://blog.sina.com.cn/s/blog_15b9403ba0102wosv.html
轉(zhuǎn)載于:https://www.cnblogs.com/wangqiao170/p/8919711.html
總結(jié)
- 上一篇: oracle 如何创建、删除用户并授予权
- 下一篇: Microsoft 离线翻译引擎介绍