python爬虫分析百度文库、道客巴巴、豆丁网获取图片链接
文章目錄
- 前言
- 百度文庫(kù)
- 道客巴巴
- 豆丁網(wǎng)
前言
在從兩個(gè)小網(wǎng)站爬取了書(shū)籍之后,我想研究一下大網(wǎng)站的網(wǎng)頁(yè),便把自己分析出來(lái)的一點(diǎn)結(jié)果分享出來(lái),希望能幫助大家,也請(qǐng)大佬指出其中不足。
百度文庫(kù)
任意打開(kāi)一篇文檔F12調(diào)出控制臺(tái)
試著檢查一下圖片元素,可以發(fā)現(xiàn)一個(gè)url
url很長(zhǎng),包含了很多參數(shù),我單獨(dú)分析了一下參數(shù)的內(nèi)容,沒(méi)能找到頁(yè)面之間的循環(huán)規(guī)律,如果有大佬發(fā)現(xiàn)了還望點(diǎn)撥點(diǎn)撥。
把鏈接拿出來(lái)直接從瀏覽器訪問(wèn)看看,成功獲得了圖片資源。
手動(dòng)翻頁(yè),繼續(xù)檢查圖片,同樣可以獲得一個(gè)新的url
這樣以來(lái)就可以用selenium進(jìn)行翻頁(yè),獲取圖片資源了,而元素定位可以結(jié)合之前圖片中標(biāo)注的#pageNo-1的這種id選擇器,循環(huán)起來(lái)獲取圖片資源。
道客巴巴
這個(gè)需要在IE瀏覽器下操作,任意打開(kāi)一個(gè)文檔,調(diào)出控制臺(tái);依舊是找圖片的連接;在這里圖片鏈接被拆開(kāi)放在object的data與param的value當(dāng)中。
將剛才的鏈接拼好在頁(yè)面中打開(kāi),雖然看起來(lái)是圖片,實(shí)際上是flash,chrome直接訪問(wèn)會(huì)下載一個(gè)swf而非加載圖片。
由于selenium調(diào)用ie并不那么常見(jiàn),而且我采取的是截圖來(lái)獲取flash的圖片,這里簡(jiǎn)單演示一下代碼,還沒(méi)有完善翻頁(yè)獲取多張圖片。
結(jié)果展示
雖然比例有點(diǎn)失調(diào),不過(guò)之后合成pdf的時(shí)候可以根據(jù)畫(huà)布的尺寸進(jìn)行調(diào)整。
豆丁網(wǎng)
這個(gè)也需要在ie下進(jìn)行操作,在chrome、Firefox等瀏覽器內(nèi)核下加載的是canvas的畫(huà)布,雙內(nèi)核的360瀏覽在此采用的ie的加載機(jī)制。
后續(xù)的操作與道客巴巴中的相同,不再演示。
總結(jié)
以上是生活随笔為你收集整理的python爬虫分析百度文库、道客巴巴、豆丁网获取图片链接的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: MIKE水动力笔记5_建立水动力模型
- 下一篇: Window系统安装FFmpeg教程