當前位置：首頁 > 编程语言 > python >内容正文

python

爬虫爬到的网页源代码不是真正的源代码_Python爬虫经常爬不到数据？你可以看一下这篇文章...

發布時間：2024/9/27 python 25 豆豆

生活随笔收集整理的這篇文章主要介紹了爬虫爬到的网页源代码不是真正的源代码_Python爬虫经常爬不到数据？你可以看一下这篇文章... 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

近期，通過做了一些小的項目，覺得對于Python爬蟲有了一定的了解，于是，就對于Python爬蟲爬取數據做了一個小小的總結，希望大家喜歡！

最簡單的Python爬蟲莫過于直接使用urllib.request.urlopen(url=某網站)或者requests.get(url=某網站)

例如：爬取漫客棧里面的漫畫

代碼和運行結果：

這是最簡單也是最基礎的Python爬蟲.

有的網址爬取數據需要添加User-Sgent、Cookie等字段信息，這個時候我們需要添加一個請求頭，也就是一個字典，User-Sgent、Cookie等字段信息就放這里面。
如：運用Python爬蟲下載表情包

沒加請求頭

加上請求頭：

是不是加與沒加，就有很大的區別.

3.所爬取的數據在NetWork里面

有個時候，我們所爬取的數據添加請求頭之后，也爬取不到，這個時候，我們就需要想一想NetWork，下面有XHR和JS，也許所需要數據就在這兩個其中的一個里面。
如：爬取王者榮耀英雄皮膚

如果用上面第二種方法，可以發現，就算添加請求頭，也訪問不到數據，我們看一下網頁源代碼，發現，這些數據根本就不在源代碼中，所以這樣肯定爬不到數據。

我們點擊電腦鍵盤F12，然后再點擊NetWork下面的JS，按F5刷新，可以發現，這些圖片的下載鏈接在JS下面的一個json文件里。

4.動態加載的數據

動態加載的，像網易云音樂，雖然我們也可以在NetWork下面找到相應的數據，但是這是一個post請求，比較復雜，我們可以使用selenium模塊，這個過程我就不講解了。

上面講解的這些，我都有關于它們的文章，讀者可以自行找到并閱讀。

也許我還是一個Python爬蟲小白吧！講解的深度還不夠，希望大家諒解，在以后的日子里，我會加油學的。如果讀者覺得我的這篇文章對于你有所幫助，希望大家給我點一個小小的贊，謝謝！

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。