爬虫爬到的网页源代码不是真正的源代码_Python爬虫经常爬不到数据?你可以看一下这篇文章...
1.最簡單的Python爬蟲
最簡單的Python爬蟲莫過于直接使用urllib.request.urlopen(url=某網站)或者requests.get(url=某網站)
例如:爬取漫客棧里面的漫畫
代碼和運行結果:
這是最簡單也是最基礎的Python爬蟲.
2.需要添加headers的Python爬蟲
有的網址爬取數據需要添加User-Sgent、Cookie等字段信息,這個時候我們需要添加一個請求頭,也就是一個字典,User-Sgent、Cookie等字段信息就放這里面。
如:運用Python爬蟲下載表情包
沒加請求頭
加上請求頭:
是不是加與沒加,就有很大的區別.
3.所爬取的數據在NetWork里面
有個時候,我們所爬取的數據添加請求頭之后,也爬取不到,這個時候,我們就需要想一想NetWork,下面有XHR和JS,也許所需要數據就在這兩個其中的一個里面。
如:爬取王者榮耀英雄皮膚
如果用上面第二種方法,可以發現,就算添加請求頭,也訪問不到數據,我們看一下網頁源代碼,發現,這些數據根本就不在源代碼中,所以這樣肯定爬不到數據。
我們點擊電腦鍵盤F12,然后再點擊NetWork下面的JS,按F5刷新,可以發現,這些圖片的下載鏈接在JS下面的一個json文件里。
4.動態加載的數據
動態加載的,像網易云音樂,雖然我們也可以在NetWork下面找到相應的數據,但是這是一個post請求,比較復雜,我們可以使用selenium模塊,這個過程我就不講解了。
5.總結
上面講解的這些,我都有關于它們的文章,讀者可以自行找到并閱讀。
也許我還是一個Python爬蟲小白吧!講解的深度還不夠,希望大家諒解,在以后的日子里,我會加油學的。如果讀者覺得我的這篇文章對于你有所幫助,希望大家給我點一個小小的贊,謝謝!
總結
以上是生活随笔為你收集整理的爬虫爬到的网页源代码不是真正的源代码_Python爬虫经常爬不到数据?你可以看一下这篇文章...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 开机怎么设置硬盘启动项 如何设置硬盘启动
- 下一篇: 联想昭阳k43c-80怎么进bios 联