四、爬虫中的urllib库使用
這篇介紹如何使用爬蟲中的urllib庫
小試牛刀
怎樣扒網(wǎng)頁呢?
其實就是根據(jù)URL來獲取它的網(wǎng)頁信息,雖然我們在瀏覽器中看到的是一幅幅優(yōu)美的畫面,但是其實是由瀏覽器解釋才呈現(xiàn)出來的,實質(zhì)它是一段HTML代碼,加 JS、CSS,如果把網(wǎng)頁比作一個人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中的,下面我們就寫個例子來扒一個網(wǎng)頁下來
from urllib.request import urlopenresponse = urlopen("http://www.baidu.com") print(response.read().decode())真正的程序就兩行,執(zhí)行如下命令查看運行結(jié)果,感受一下
看,這個網(wǎng)頁的源碼已經(jīng)被我們扒下來了,是不是很酸爽?
常見到的方法
-
requset.urlopen(url,data,timeout)
-
第一個參數(shù)url即為URL,第二個參數(shù)data是訪問URL時要傳送的數(shù)據(jù),第三個timeout是設(shè)置超時時間。
-
第二三個參數(shù)是可以不傳送的,data默認(rèn)為空None,timeout默認(rèn)為 socket._GLOBAL_DEFAULT_TIMEOUT
-
第一個參數(shù)URL是必須要傳送的,在這個例子里面我們傳送了百度的URL,執(zhí)行urlopen方法之后,返回一個response對象,返回信息便保存在這里面。
-
-
respo
總結(jié)
以上是生活随笔為你收集整理的四、爬虫中的urllib库使用的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 广电运通属于什么板块
- 下一篇: 股票型基金投资技巧 平时不要频繁的操作