當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

python爬虫什么网站都能爬吗_python如何爬取动态网站

發(fā)布時(shí)間：2024/7/5 python 28 豆豆

生活随笔收集整理的這篇文章主要介紹了 python爬虫什么网站都能爬吗_python如何爬取动态网站小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

python有許多庫(kù)可以讓我們很方便地編寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)，爬取某些頁(yè)面，獲得有價(jià)值的信息！但許多時(shí)候，爬蟲(chóng)取到的頁(yè)面僅僅是一個(gè)靜態(tài)的頁(yè)面，即網(wǎng)頁(yè) 的源代碼，就像在瀏覽器上的“查看網(wǎng)頁(yè)源代碼”一樣。一些動(dòng)態(tài)的東西如javascript腳本執(zhí)行后所產(chǎn)生的信息，是抓取不到的，這里暫且先給出這么一些方案，可用于python爬取js執(zhí)行后輸出的信息。

1、兩種基本的解決方案

1.1 用dryscrape庫(kù)動(dòng)態(tài)抓取頁(yè)面

js腳本是通過(guò)瀏覽器來(lái)執(zhí)行并返回信息的，所以，抓取js執(zhí)行后的頁(yè)面，一個(gè)最直接的方式就是用python模擬瀏覽器的行為。WebKit 是一個(gè)開(kāi)源的瀏覽器引擎，python提供了許多庫(kù)可以調(diào)用這個(gè)引擎，dryscrape便是其中之一，它調(diào)用webkit引擎來(lái)處理包含js等的網(wǎng)頁(yè)！

import?dryscrape

#?使用dryscrape庫(kù)?動(dòng)態(tài)抓取頁(yè)面

def?get_url_dynamic(url):

session_req=dryscrape.Session()

session_req.visit(url)?#請(qǐng)求頁(yè)面

response=session_req.body()?#網(wǎng)頁(yè)的文本

#print(response)

return?response

get_text_line(get_url_dynamic(url))?#將輸出一條文本

這里對(duì)于其余包含js的網(wǎng)頁(yè)也是適用的！雖然可以滿(mǎn)足抓取動(dòng)態(tài)頁(yè)面的要求，但缺點(diǎn)還是很明顯的：慢！太慢了，其實(shí)想一想也合理，python調(diào)用 webkit請(qǐng)求頁(yè)面，而且等頁(yè)面加載完，載入js文件，讓js執(zhí)行，將執(zhí)行后的頁(yè)面返回，慢一點(diǎn)也是應(yīng)該的！除外還有很多庫(kù)可以調(diào)用 webkit：PythonWebkit，PyWebKitGit，Pygt（可以用它寫(xiě)個(gè)瀏覽器），pyjamas等等，聽(tīng)說(shuō)它們也可以實(shí)現(xiàn)相同的功能！

1.2 selenium web測(cè)試框架

selenium是一個(gè)web測(cè)試框架，它允許調(diào)用本地的瀏覽器引擎發(fā)送網(wǎng)頁(yè)請(qǐng)求，所以，它同樣可以實(shí)現(xiàn)抓取頁(yè)面的要求。

# 使用 selenium webdriver 可行，但會(huì)實(shí)時(shí)打開(kāi)瀏覽器窗口

def?get_url_dynamic2(url):

driver=webdriver.Firefox()?#調(diào)用本地的火狐瀏覽器，Chrom?甚至?Ie?也可以的

driver.get(url)?#請(qǐng)求頁(yè)面，會(huì)打開(kāi)一個(gè)瀏覽器窗口

html_text=driver.page_source

driver.quit()

#print?html_text

return?html_text

get_text_line(get_url_dynamic2(url))?#將輸出一條文本

這也不失為一條臨時(shí)的解決方案！與selenium類(lèi)似的框架還有一個(gè)windmill，感覺(jué)稍復(fù)雜一些，就不再贅述！

2、selenium的安裝與使用

2.1 selenium的安裝

在Ubuntu上安裝可以直接使用pip install selenium。由于以下原因：

1. selenium 3.x開(kāi)始，webdriver/firefox/webdriver.py的__init__中，executable_path="geckodriver"；而2.x是executable_path="wires"

2. firefox 47以上版本，需要下載第三方driver，即geckodriver

還需要一些特殊操作：

1. 下載 geckodriverckod 地址：

mozilla/geckodriver

2. 解壓后將geckodriverckod 存放至 /usr/local/bin/ 路徑下即可：

sudo?mv?～/Downloads/geckodriver?/usr/local/bin/

2.2 selenium的使用

1. 運(yùn)行報(bào)錯(cuò)：

driver?=?webdriver.chrome()

TypeError:?'module'?object?is?not?callable

解決方案：瀏覽器的名稱(chēng)需要大寫(xiě)Chrome和Firefox，Ie

2. 通過(guò)

content?=?driver.find_element_by_class_name('content')

來(lái)定位元素時(shí)，該方法返回的是FirefoxWebElement，想要獲取包含的值時(shí)，可以通過(guò)

value?=?content.text

到此這篇關(guān)于python如何爬取動(dòng)態(tài)網(wǎng)站的文章就介紹到這了,更多相關(guān)python怎么爬動(dòng)態(tài)網(wǎng)站內(nèi)容請(qǐng)搜索python博客以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持python博客！

總結(jié)

以上是生活随笔為你收集整理的python爬虫什么网站都能爬吗_python如何爬取动态网站的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： Linux_ACL_su
下一篇： php 循环队列,队列和循环队列-php