爬虫为什么用Chrome?
- 為什么爬蟲要用Chrome?
- 為什么大家似乎都知道header應(yīng)該怎么寫?
- 為什么大家都知道怎么爬取網(wǎng)頁的路線?
- 為什么…
如果你也跟我一樣,有過上面類似的疑問,那么我覺得,這篇文章你可能值得看一下。水平有限,如果有差錯(cuò)還望指出。
用Chrome很容易看到網(wǎng)頁的源碼
輕松右鍵 -> 檢查 就可以看到這個(gè)源代碼
檢查中還可以看網(wǎng)頁從服務(wù)器上不斷加載包
雖然一開始我們點(diǎn)開的時(shí)候,網(wǎng)頁其實(shí)已經(jīng)加載好了。對于所謂的靜態(tài)網(wǎng)頁在這個(gè)地方其實(shí)已經(jīng)加載好了。(百度的首頁,一般會(huì)被認(rèn)為是靜態(tài)網(wǎng)頁)
但是還可以通過這個(gè)來看。 比如: 刷新一下網(wǎng)頁~
不過,在那之前,我們要點(diǎn)之前檢查的最上面的 network,一般默認(rèn)是選中All模式的,在中間偏上的部分。點(diǎn)好之后,我們就可以刷新了
有趣的事就這樣開始了~
比如:我們可以檢查之前的那個(gè)包
就可以看那些包的具體信息。那樣,我們就可以得到了所有很多重要的信息了
比如像上面的我們可以看到這個(gè)信息,是通過上面header拿到的。不過這個(gè),有些會(huì)把這個(gè)給隱藏掉。但基本是沒有問題的,一般我們只要知道一個(gè)就好了。
還有其他的騷操作,比如:看看這個(gè)包是怎么拿下來的,這樣我們就可以特定地拿數(shù)據(jù)了。
比如,我們選擇之前拿到的那些圖片(百度官網(wǎng)圖片)
通過這個(gè)gif,我們可以看到這個(gè),用的是https://www.baidu.com/img/bd_logo1.png這個(gè)url,請求的方法是get
還可以得到對方的服務(wù)器地址。
比如在之前的那個(gè)gif中,下面就放了remote Address這個(gè)就是遠(yuǎn)端的地址。
此外,還可以通過那個(gè)preview來預(yù)覽一下這個(gè)信息包的內(nèi)容
最后還可以通過最后的tim來看一下這個(gè)東西下載所用的時(shí)間
(可以算是測測速?)
總結(jié)
以上是生活随笔為你收集整理的爬虫为什么用Chrome?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Python动态网页爬虫技巧Seleni
- 下一篇: Python爬取Json格式数据并读写(