當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

python爬虫分析百度文库、道客巴巴、豆丁网获取图片链接

發(fā)布時(shí)間：2023/12/31 python 40 豆豆

生活随笔收集整理的這篇文章主要介紹了 python爬虫分析百度文库、道客巴巴、豆丁网获取图片链接小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

文章目錄

前言
百度文庫(kù)
道客巴巴
豆丁網(wǎng)

前言

在從兩個(gè)小網(wǎng)站爬取了書(shū)籍之后，我想研究一下大網(wǎng)站的網(wǎng)頁(yè)，便把自己分析出來(lái)的一點(diǎn)結(jié)果分享出來(lái)，希望能幫助大家，也請(qǐng)大佬指出其中不足。

百度文庫(kù)

任意打開(kāi)一篇文檔F12調(diào)出控制臺(tái)

試著檢查一下圖片元素，可以發(fā)現(xiàn)一個(gè)url

url很長(zhǎng)，包含了很多參數(shù)，我單獨(dú)分析了一下參數(shù)的內(nèi)容，沒(méi)能找到頁(yè)面之間的循環(huán)規(guī)律，如果有大佬發(fā)現(xiàn)了還望點(diǎn)撥點(diǎn)撥。

把鏈接拿出來(lái)直接從瀏覽器訪問(wèn)看看，成功獲得了圖片資源。

手動(dòng)翻頁(yè)，繼續(xù)檢查圖片，同樣可以獲得一個(gè)新的url

這樣以來(lái)就可以用selenium進(jìn)行翻頁(yè)，獲取圖片資源了，而元素定位可以結(jié)合之前圖片中標(biāo)注的#pageNo-1的這種id選擇器，循環(huán)起來(lái)獲取圖片資源。

道客巴巴

這個(gè)需要在IE瀏覽器下操作，任意打開(kāi)一個(gè)文檔，調(diào)出控制臺(tái)；依舊是找圖片的連接；在這里圖片鏈接被拆開(kāi)放在object的data與param的value當(dāng)中。

將剛才的鏈接拼好在頁(yè)面中打開(kāi)，雖然看起來(lái)是圖片，實(shí)際上是flash，chrome直接訪問(wèn)會(huì)下載一個(gè)swf而非加載圖片。

由于selenium調(diào)用ie并不那么常見(jiàn)，而且我采取的是截圖來(lái)獲取flash的圖片，這里簡(jiǎn)單演示一下代碼，還沒(méi)有完善翻頁(yè)獲取多張圖片。

from bs4 import BeautifulSoup from selenium import webdriver browser = webdriver.Ie() browser.get('http://www.doc88.com/p-2055371015972.html') html = browser.page_source soup = BeautifulSoup(html, 'lxml') # 獲取object標(biāo)簽 list = soup.find_all('object') for item in list:# 獲取object下的參數(shù)，索引為3的是需要的鏈接值childs = soup.find('object').childreni = 0for child in childs:if i == 3:value = child['value']url = item['data']+valueprint(url)i += 1browser.get(url)browser.get_screenshot_as_file('F:/1.png')

結(jié)果展示

雖然比例有點(diǎn)失調(diào)，不過(guò)之后合成pdf的時(shí)候可以根據(jù)畫(huà)布的尺寸進(jìn)行調(diào)整。

豆丁網(wǎng)

這個(gè)也需要在ie下進(jìn)行操作，在chrome、Firefox等瀏覽器內(nèi)核下加載的是canvas的畫(huà)布，雙內(nèi)核的360瀏覽在此采用的ie的加載機(jī)制。

后續(xù)的操作與道客巴巴中的相同，不再演示。

總結(jié)

以上是生活随笔為你收集整理的python爬虫分析百度文库、道客巴巴、豆丁网获取图片链接的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： MIKE水动力笔记5_建立水动力模型
下一篇： Window系统安装FFmpeg教程