八爪鱼的简单应用
知道我是做文獻計量學的,懂得一些文獻數據爬取的知識,因此,最近有小伙伴向我請教微博數據爬取的問題。先說說自己,我是通過編程的方式通過post get模擬請求獲取數據的,還有一種是webdriver的方法,就是可視化地模擬人的動作,速度比較慢。鑒于他什么編程知識都沒有,因此給他推薦了現有的網絡數據爬取工具。據我所知,八爪魚和火車頭都是比較成熟的數據爬取工具。先來說說使用工具獲取數據的優缺點。優點:不需要編程,對于經常需要的數據,工具已經封裝好了特定的功能,可以說使用現有工具獲取數據為害怕編程的小伙伴提供了一扇窗。缺點:不能靈活地隨心所欲的獲取想要的數據和數據格式。
寫這篇博文,希望能夠幫助到像我小伙伴那樣對編程一點不懂,剛剛接觸網絡爬蟲的人。這是一篇最簡單的八爪魚介紹的博文,這是一篇入門級別的八爪魚工具介紹的博文,閱讀這篇博文只能讓你對該工具有大致了解,并不能百分百滿足你的需求。重要的事情反復說三遍。
首先是下載安裝八爪魚工具。網址:http://www.bazhuayu.com/?下載后點擊setup安裝即可,沒什么可講的。如果連這步都不會,也就和互聯網說再見了。
這是打開后的主界面,其中 簡單采集 選項是八爪魚工具已經幫用戶封裝好的工具,只需輸入簡單的步驟就可以完成采集,相對的,功能比較單一,不一定能滿足你對數據的要求。右邊 自定義采集 選項需要用戶自己編寫規則,說是編寫規則,其實不需要寫代碼,模擬點擊就好。可以這么說,自定義 采集 基本能滿足用戶對數據的要求,推薦具有一定編程思維的小伙伴或者對八爪魚工具有一定了解的小伙伴拓展使用。當然最好先試著采集小部分數據,看看是否滿足你的要求。下圖是點擊簡單采集后的對應模板,選擇你需要的模板,根據提示一步步執行即可。這邊可能需要輸入你的賬號密碼,比如爬取微博數據時,需要輸入你的賬號密碼,其中登錄時候的驗證碼工具會自動幫你搞定。ps要真實的賬號密碼哦。
下圖是點擊自定義的界面。需要輸入網址等信息,然后自己選擇需要獲取的數據。以百度首頁為例,輸入網址后,選擇保存網址。
下圖是八爪魚打開對應網址的內容,跟在瀏覽器里打開的并無二樣。
我們以爬取百度首頁下面的 “把百度設為主頁” “關于百度” “About baidu” “百度推廣”這幾項內容為例。首先點擊第一個元素 “把百度設為主頁”,得到下圖。根據小窗口的對應指令進行選擇,例子中我們選擇選中全部,那么上面4個內容都會被選中,在彈出的窗口中,選擇 “采集以下鏈接文本” 然后,如果你只想獲得這些數據(這些類型的數據)在彈出的窗口中選擇“保存并開始采集”,如果你還想獲取其他數據,重新點擊其他元素即可。最后導出數據為對應格式,你就獲得了相應的數據。再通過其他方法對數據進行預處理即可。
總結
- 上一篇: 旧金山大学的算法可视化学习教程 赞的教
- 下一篇: 方差分析 可汗学院统计学 笔记