手把手视频:万能开源Hawk抓取动态网站
Hawk是沙漠之鷹歷時五年開發(fā)的開源免費網(wǎng)頁抓取工具(爬蟲),無需編程,全部可視化。
自從上次發(fā)布Hawk 2.0過了小半年,可是還是有不少朋友通過郵件或者微信的方式詢問如何使用。看文檔還是不如視頻教學方便,沙漠君決定錄播幾段視頻來幫助大家~
軟件最新的下載地址(或點擊原文)
https://github.com/ferventdesert/Hawk/releases
下面是視頻內(nèi)容,在騰訊視頻可以開啟高清,實測清晰度尚可,當然你也可以在百度云盤中下載以下全部視頻。
http://pan.baidu.com/s/1dE5D40h
1. 使用Hawk抓取百度百家新聞
這是抓取百度百家新聞(http://baijia.baidu.com/)完整的例子,你可以了解到:
- 如何抓取動態(tài)頁面和超級模式
- 如何獲取網(wǎng)頁正文信息
- 如何導出抓取的數(shù)據(jù)
內(nèi)置的播放器無法調(diào)節(jié)清晰度。可在PC訪問:
https://v.qq.com/x/page/a03878tihmx.html
2. Hawk答疑
這是一個綜述,對大家感興趣的話題答疑解惑,包括:
- 如何使用手氣不錯(相比1.0版本優(yōu)化很多)
- 文檔在哪里?
- 如何連接數(shù)據(jù)庫
- 其他一些使用上的問題
可在PC訪問:
https://v.qq.com/x/page/n0387axmgg5.html
3. 歷史視頻
這些視頻都是針對1.0在2016年上半年錄制的,由于網(wǎng)站改版,或增加了防爬蟲(如鏈家),因此在使用上會有較大區(qū)別,僅供各位用戶參考。
抓取鏈家(目前鏈家防爬蟲非常嚴格,視頻僅供參考)
http://v.qq.com/x/page/w0189607h92.html
大眾點評(沒想到播放量高達8.3W)
https://v.qq.com/x/page/z01891n1rgh.html
獲取最近地鐵站(Hawk的功能可不局限于爬蟲)
https://v.qq.com/x/page/x01898xojwg.html
4. 如何下載工程案例
Hawk本身提供了一系列例子(雖然基本都是2016年上半年的),不少已經(jīng)過期了。
有些朋友直接用“右鍵另存為”下載,這樣保存的是html頁面,有兩種方法可以下載:
如果你會用git, 在shell里直接執(zhí)行
git clone git@github.com:ferventdesert/Hawk-Projects.git
手動下載整個文件夾: 在首頁上Download ZIP
4. 歡迎共同改進Hawk
為什么要重提再度改進Hawk呢?
- 高不成低不就: 因為如果一件好用的工具分數(shù)是0.8的話,Hawk正好在0.74,因為一些其實很簡單的問題,用戶就卡在那里無從下手。
- 可用性/UI設(shè)計急需提高: 特別需要懂產(chǎn)品/UI的朋友一起協(xié)助
- 軟件依然有不少bugs
- etlpy(Python版本的Hawk)開發(fā)雖完成,但有相當陡峭的學習曲線
萬里長征走了9500里,卻在最后的一段路上止步不前,給世人留下一個半吊子,終究是不好的。所以2017年一個重要的任務(wù)便是進一步完善它,走完剩下的500里。
因此,如果你對Hawk,爬蟲或是軟件設(shè)計感興趣的話,可以考慮和沙漠君一起改進它。只要你有任何靠譜的建議,都可以告訴我,我會集中起來一起改進。也許你可能獲得不了什么經(jīng)濟上的補償(沙漠君也沒有),但總比網(wǎng)絡(luò)上各種野路子收費軟件強很多。我們做了一件能幫助幾十萬甚至百萬人的事情。
雖然工作非常忙,因此各種回復不及時,不過有任何問題依然可以給我發(fā)郵件:
buptzym@qq.com
最后祝使用Hawk愉快!
轉(zhuǎn)載于:https://www.cnblogs.com/buptzym/p/6718190.html
總結(jié)
以上是生活随笔為你收集整理的手把手视频:万能开源Hawk抓取动态网站的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: qq推广 qq在线客服工具
- 下一篇: 5 -- Hibernate的基本用法