golang幽灵蛛(pholcus)(一)
最近開始重拾golang語言的原因
golang語言c語言的運行速度,Python的開發(fā)效率。
tensorflow支持golang了,預(yù)估國內(nèi)會有一些人開發(fā)深度學(xué)習(xí)軟件了,會火一把,估計Google親爹應(yīng)該不會拋棄它了。
gota快要支持日期時間型了,可以實現(xiàn)數(shù)據(jù)清洗了。
還有一些數(shù)據(jù)挖掘的包,我還沒用過,但是慢慢的會穩(wěn)定。
幽靈蛛(pholcus)一套穩(wěn)定的爬蟲架構(gòu),支持分布式。
還差可視化包了,有誰知道好的包求推薦????????????????????????
下面步入正題,幽靈蛛入門:
怎么運行,我給大家截圖一下我自己的文件結(jié)構(gòu)吧,讓我詳細說 我也說不清楚:
golang項目中最主要的就是src文件夾了,這個文件夾是自動創(chuàng)建的,src上gopath里的。其中pholcus文件夾我是直接從github上下載的。
github.com文件夾截圖如下:
頁面解析文件都放在pholcus_lib下,如果你想自己寫爬蟲,也是維護到這個文件夾下。
main.go文件是從example_main.go改的。編譯并運行mai.go文件。瀏覽器自動彈出一下界面,按照截圖進行設(shè)置,點擊開啟:
進入爬蟲任務(wù)頁面,按紅框設(shè)置,分批輸出限制100是為了可以很快的看到輸出是啥樣子的。
運行l(wèi)og:
可以暫定和停止。
文本輸出文件在文件夾E:projectgoprojectgolearnsrcpholcuspholcus_pkg ext_out中,如果停止后想再次進行啟動進行爬取 需要先刪除history:E:projectgoprojectgolearnsrcpholcuspholcus_pkghistory (也可以通過設(shè)置“集成并保存成功記錄為False”)
在頁面解析文件的go文件中,可以直接進行print測試,如下圖:當(dāng)然這種測試太麻煩了,還要啟動瀏覽器啥的,但是目前還沒找到其他的測試方式 先這么著 ,我再去探索一下,如果哪位朋友知道,請賜教????????????????????
下面我們來看看輸出的結(jié)果形式:
第5行的內(nèi)容是空,這證明頁面解析沒有解析出“內(nèi)容”值,可能是頁面改版了,以前的元素不存在了,
csv文件,第一行是列名,對應(yīng)people.go文件中的以下代碼
當(dāng)前鏈接,上級鏈接,下載時間 應(yīng)該是系統(tǒng)自動添加的。
這是目前學(xué)習(xí)到的只是,雜亂無章。
總結(jié)
以上是生活随笔為你收集整理的golang幽灵蛛(pholcus)(一)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: IC卡和RFID卡的区别(网上说的都不准
- 下一篇: Go语言的原子操作atomic