2/2 数据获取:网络数据的获取
o. 抓取
1. urllib內(nèi)建模塊
— urllib.request
2. Request第三方庫
**Request庫:**Requests 庫是最簡(jiǎn)單、方便和人性化的Python HTTP第三方庫。Requests 官網(wǎng):http://www.python-requests.org/ 。
注:有的網(wǎng)站有自己的爬蟲協(xié)議,如豆瓣網(wǎng)(https://book.douban.com/robots.txt), 有“robots.txt”就說明存在。
| request.get() | 請(qǐng)求獲取指定URL位置的資源,對(duì)應(yīng)HTTP協(xié)議的GET方法。 |
發(fā)送請(qǐng)求獲得一個(gè)Response對(duì)象,這個(gè)對(duì)象包含Resquest請(qǐng)求信息和服務(wù)器的Response響應(yīng)信息,而Requests會(huì)自動(dòng)解碼來自服務(wù)器的信息。假設(shè)響應(yīng)內(nèi)容是二進(jìn)制形式的,可以通過re.content進(jìn)行解碼,re.text自動(dòng)推測(cè)文本編碼并進(jìn)行解碼,re.encoding修改文本編碼。
import requestsr = requests.get('https://book.douban.com/subject/1084336/comments/')r.status_code Out[4]: 200r.text import requests re = requests.get('http://money.cnn.com/data/dow30') print(re.text)3. Scrapy框架
o. 解析
1. BeautifulSoup庫
BeautifulSoup是一個(gè)可以從HTML或XML文件中提取數(shù)據(jù)的Python庫。官方網(wǎng)站:https://www.crummy.com/software/BeautifulSoup/bs4/doc 。
| Tag | HTML或XML文檔中的標(biāo)簽;Tag屬性的操作和字典一樣;Tag對(duì)象最重要的屬性包括name(獲得名字)和attribute() |
| BeautifulSoup | 大部分內(nèi)容都是Tag |
| NavigableString | Tag當(dāng)中的字符串。NavigableString對(duì)象可以用string屬性來表示,取Tag中包含的非屬性的字符串。 |
| Comment | NavigableString的一個(gè)子類 |
2. re模塊(正則表達(dá)式模塊)
re正則表達(dá)式模塊進(jìn)行各類正則表達(dá)式處理。參考網(wǎng)站:https://docs.python.org/3.5/library/re.html 。
總結(jié)
以上是生活随笔為你收集整理的2/2 数据获取:网络数据的获取的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 爬虫 - 豆瓣网《小王子》热评
- 下一篇: 1/3 常用符号:类型说明符