當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

2/2 数据获取：网络数据的获取

發(fā)布時(shí)間：2024/1/17 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了 2/2 数据获取：网络数据的获取小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

o. 抓取

1. urllib內(nèi)建模塊
— urllib.request

2. Request第三方庫

**Request庫：**

Requests 庫是最簡(jiǎn)單、方便和人性化的Python HTTP第三方庫。Requests 官網(wǎng)：http://www.python-requests.org/ 。

注：有的網(wǎng)站有自己的爬蟲協(xié)議，如豆瓣網(wǎng)（https://book.douban.com/robots.txt），有“robots.txt”就說明存在。

基本方法說明

request.get()

請(qǐng)求獲取指定URL位置的資源，對(duì)應(yīng)HTTP協(xié)議的GET方法。

發(fā)送請(qǐng)求獲得一個(gè)Response對(duì)象，這個(gè)對(duì)象包含Resquest請(qǐng)求信息和服務(wù)器的Response響應(yīng)信息，而Requests會(huì)自動(dòng)解碼來自服務(wù)器的信息。假設(shè)響應(yīng)內(nèi)容是二進(jìn)制形式的，可以通過re.content進(jìn)行解碼，re.text自動(dòng)推測(cè)文本編碼并進(jìn)行解碼，re.encoding修改文本編碼。

import requestsr = requests.get('https://book.douban.com/subject/1084336/comments/')r.status_code Out[4]: 200r.text import requests re = requests.get('http://money.cnn.com/data/dow30') print(re.text)

3. Scrapy框架

o. 解析

1. BeautifulSoup庫
BeautifulSoup是一個(gè)可以從HTML或XML文件中提取數(shù)據(jù)的Python庫。官方網(wǎng)站：https://www.crummy.com/software/BeautifulSoup/bs4/doc 。

BeautifulSoup對(duì)象說明

Tag	HTML或XML文檔中的標(biāo)簽；Tag屬性的操作和字典一樣；Tag對(duì)象最重要的屬性包括name（獲得名字）和attribute（）
BeautifulSoup	大部分內(nèi)容都是Tag
NavigableString	Tag當(dāng)中的字符串。NavigableString對(duì)象可以用string屬性來表示，取Tag中包含的非屬性的字符串。
Comment	NavigableString的一個(gè)子類

from bs4 import BeautifulSoup markup = 'The Little Prince' # 定義一個(gè)字符串 soup = BeautifulSoup(markup, 'lxml') # 生成一個(gè)BeautifulSoup對(duì)象的soupsoup.b # 任何的標(biāo)簽內(nèi)容都可以用“BeautifulSoup對(duì)象.tag”形式訪問得到 Out[22]: The Little Princetype(soup.b) #查看類型 Out[23]: bs4.element.Tag tag = soup.ptag.name # 通過name屬性獲得名字 Out[25]: 'p'tag.attrs Out[26]: {'class': ['title']}tag['class'] # 通過字典形式獲得屬性 Out[27]: ['title'] tag.string # NavigableString對(duì)象可以用string屬性來表示 Out[28]: 'The Little Prince'type(tag.string) Out[29]: bs4.element.NavigableString soup.find_all('b') # 尋找所有b標(biāo)簽的內(nèi)容 Out[30]: [The Little Prince]soup.find()# 只需要找第一個(gè)標(biāo)簽內(nèi)容 Out[31]: <html><body>The Little Prince</body></html>

2. re模塊（正則表達(dá)式模塊）
re正則表達(dá)式模塊進(jìn)行各類正則表達(dá)式處理。參考網(wǎng)站：https://docs.python.org/3.5/library/re.html 。

總結(jié)

以上是生活随笔為你收集整理的2/2 数据获取：网络数据的获取的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。