javascript
Python爬虫利器四PhantomJS的用法
大家有沒有發現之前我們寫的爬蟲都有一個共性,就是只能爬取單純的 html 代碼,如果頁面是 JS 渲染的該怎么辦呢?如果我們單純去分析一個個后臺的請求,手動去摸索 JS 渲染的到的一些結果,那簡直沒天理了。所以,我們需要有一些好用的工具來幫助我們像瀏覽器一樣渲染 JS 處理的頁面。 其中有一個比較常用的工具,那就是 PhantomJS
Full web stack No browser required
PhantomJS is a headless WebKit scriptable with a JavaScript API. It has fast andnative support for various web standards: DOM handling, CSS selector, JSON, Canvas, and SVG.
PhantomJS 是一個無界面的,可腳本編程的 WebKit 瀏覽器引擎。它原生支持多種 web 標準:DOM 操作,CSS 選擇器,JSON,Canvas 以及 SVG。 好,接下來我們就一起來了解一下這個神奇好用的庫的用法吧。
安裝
PhantomJS 安裝方法有兩種,一種是下載源碼之后自己來編譯,另一種是直接下載編譯好的二進制文件。然而自己編譯需要的時間太長,而且需要挺多的磁盤空間。官方推薦直接下載二進制文件然后安裝。 大家可以依照自己的開發平臺選擇不同的包進行下載 下載地址 當然如果你不嫌麻煩,可以選擇 下載源碼 然后自己編譯。 目前(2016/3/21)最新發行版本是 v2.1, 安裝完成之后命令行輸入
phantomjs -v如果正常顯示版本號,那么證明安裝成功了。如果提示錯誤,那么請重新安裝。 本文介紹大部分內容來自于官方文檔,博主對其進行了整理,學習更多請參考 官方文檔
第一個程序
http://cuiqingcai.com/2577.html
總結
以上是生活随笔為你收集整理的Python爬虫利器四PhantomJS的用法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: POJ 2353 DP
- 下一篇: 推荐一些好用的Chrome插件