當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫的基本知识第一个请求requests模块的基本使用

發布時間：2025/3/21 编程问答 18 豆豆

生活随笔收集整理的這篇文章主要介紹了爬虫的基本知识第一个请求requests模块的基本使用小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

1.請求過程與網頁基礎
- 1.1 URL介紹
- 1.2 HTTP請求過程
- 1.3請求
- 1.4 響應
- 1.4 網頁基礎
2.第一個請求
- 2.1 爬蟲工作流(復習)
- 2.2 第一個爬蟲
3.requests模塊基本使用
- 3.1 requests模塊的get請求
- 3.2 requests模塊的post請求
- 3.3 json形式與流形式的響應數據示例

1.請求過程與網頁基礎

1.1 URL介紹

URL（Uniform Resource Locator），統一資源定位符，是互聯網上標準資源的地址
組成：<協議>://<主機>:<端口>/<路徑>

不同scheme的URL一般只包括其中的部份組件，其中最重要的3個部份是方案（scheme）、主機（host）和路徑（path）

1.2 HTTP請求過程

# 請求過程:客戶端, 通常指web瀏覽器或APP向服務器發起請求, 服務器接收到請求進行處理, 并向客戶端發起響應.

1.3請求

請求方法:常見有8種

GET: 請求頁面, 并返回頁面內容
POST: 用于提交表單數據或上傳文件, 數據包含在請求體中
PUT: 從客戶端向服務器傳送的數據取代指定文檔中的內容
DELETE: 請求服務器刪除指定的頁面
HEAD: 類似于GET請求，只不過返回的響應中沒有具體的內容，用于獲取報頭
CONNECT: 把服務器當作跳板，讓服務器代替客戶端訪問其他網頁
OPTIONS: 允許客戶端查看服務器的性能
TRACE: 回顯服務器收到的請求，主要用于測試或診斷
重點掌握GET & POST : GET與POST的區別(重點) --> (面試出鏡率較高)
( 1.GET請求中的參數包含在URL里面, 數據可以在URL中看到, 而POST請求的URL不會包含這些數據, POST的數據都是通過表單形式傳輸的, 會包含在請求體中
2.GET請求提交的數據最多只有1024字節, 而POST方式沒有限制)

# 請求網址: 請求的網址，即統一資源定位符URL，它可以唯一確定我們想請求的資源

請求頭：
請求頭，用來說明服務器要使用的附加信息. 重點掌握: Accept, Cookie, Referer, User-Agent
1.Accept：請求報頭域，用于指定客戶端可接受哪些類型的信息
2.Cookie：也常用復數形式 Cookies，這是網站為了辨別用戶進行會話跟蹤而存儲在用戶本地的數據。它的主要功能是維持當前訪問會話。例如，我們輸入用戶名和密碼成功登錄某個網站后，服務器會用會話保存登錄狀態信息，后面我們每次刷新或請求該站點的其他頁面時，會發現都是登錄狀態，這就是Cookies的功勞。Cookies里有信息標識了我們所對應的服務器的會話，每次瀏覽器在請求該站點的頁面時，都會在請求頭中加上Cookies并將其發送給服務器，服務器通過Cookies識別出是我們自己，并且查出當前狀態是登錄狀態，所以返回結果就是登錄之后才能看到的網頁內容
3.Referer：此內容用來標識這個請求是從哪個頁面發過來的，服務器可以拿到這一信息并做相應的處理，如作來源統計、防盜鏈處理等
4.User-Agent：簡稱UA，它是一個特殊的字符串頭，可以使服務器識別客戶使用的操作系統及版本、瀏覽器及版本等信息。在做爬蟲時加上此信息，可以偽裝為瀏覽器；如果不加，很可能會被識別出為爬蟲 # 重點
5.x-requested-with :XMLHttpRequest # 代表ajax請求
5.Accept-Language：指定客戶端可接受的語言類型
6.Accept-Encoding：指定客戶端可接受的內容編碼
7.Content-Type：也叫互聯網媒體類型（Internet Media Type）或者MIME類型，在HTTP協議消息頭中，它用來表示具體請求中的媒體類型信息。例如，text/html代表HTML格式，image/gif代表GIF圖片，application/json代表JSON類型

# 請求體: 請求體一般承載的內容是POST請求中的表單數據，而對于GET請求，請求體則為空。

1.4 響應

# 響應, 是由服務端返回給客戶端的, 可以分為三部分: 響應狀態碼(response status code), 響應頭(response headers), 響應體(response body)

響應狀態碼: 用于判斷請求后的相應狀態, 如200代表請求成功, 404代表頁面頁面找不到, 500代表服務器錯誤
常見的狀態碼:
200系列:
200 成功服務器已成功處理了請求
300系列:
301 永久移動請求的網頁已永久移動到新位置，即永久重定向 # 重點
302 臨時移動請求的網頁暫時跳轉到其他頁面，即暫時重定向 # 重點
400系列:
400 錯誤請求服務器無法解析該請求 # 重點
401 未授權請求沒有進行身份驗證或驗證未通過
403 禁止訪問服務器拒絕此請求 # 重點
404 未找到服務器找不到請求的網頁
500系列：
500 服務器內部錯誤服務器遇到錯誤，無法完成請求 # 重點
501 未實現服務器不具備完成請求的功能
502 錯誤網關服務器作為網關或代理，從上游服務器收到無效響應
504 網關超時服務器作為網關或代理，但是沒有及時從上游服務器收到請求
505 HTTP版本不支持服務器不支持請求中所用的HTTP協議版本

(注意: 狀態碼不能完全代表響應狀態, 部分網站的狀態碼是自定義的, 一切以響應的數據為準)

# 響應頭: 響應頭包含了服務器對請求的應答信息 Date：標識響應產生的時間。 Content-Encoding：指定響應內容的編碼。Server：包含服務器的信息，比如名稱、版本號等。Content-Type：文檔類型，指定返回的數據類型是什么，如text/html代表返回HTML文檔， application/x-javascript則代表返回JavaScript文件，image/jpeg則代表返回圖片。Set-Cookie：設置Cookies。響應頭中的Set-Cookie告訴瀏覽器需要將此內容放在Cookies中，下次請求攜帶Cookies請求。Expires：指定響應的過期時間，可以使代理服務器或瀏覽器將加載的內容更新到緩存中。如果再次訪問時，就可以直接從緩存中加載，降低服務器負載，縮短加載時間。 # 響應體: 最重要的當屬響應體的內容了。響應的正文數據都在響應體中，比如請求網頁時，它的響應體就是網頁的HTML代碼；請求一張圖片時，它的響應體就是圖片的二進制數據。我們做爬蟲請求網頁后，要解析的內容就是響應體.

1.4 網頁基礎

# 網頁的組成: 網頁可以分為三部分, HTML, CSS, JavaScript 1.HTML: 其全稱叫作Hyper Text Markup Language，即超文本標記語言。定義了網頁的骨架2.CSS: 全稱叫作Cascading Style Sheets，即層疊樣式表。定義了網頁的樣式3.JavaScript: 簡稱JS，是一種腳本語言定義了網頁與用戶的交互行為, 如下載進度條, 提示框, 輪播圖

2.第一個請求

2.1 爬蟲工作流(復習)

確定url, 向服務器發送請求并獲得響應: requests, urllib, aiohttp
在響應中提取目標數據, 即數據解析: xpath, bs4, 正則, PyQuery
數據持久化: 文件, 關系型數據庫, 非關系型數據庫

2.2 第一個爬蟲

# requests庫的安裝 pip install requests # 需求: 爬取百度首頁, 并寫入文件中, 最后用瀏覽器打開文件查看效果import requests# 1.確定url, 向服務器發送請求 url = 'https://www.baidu.com' res = requests.get(url=url)# 2.操作響應數據, 獲取目標數據 res.encoding = 'utf-8'# 3.將目標數據持久化到本地: 寫入文件 with open('baidu.html', 'w', encoding='utf-8') as f:f.write(res.text) # 需求: 爬取前程無憂, 并寫入文件, 最后用瀏覽器打開文件查看結果 import requests# 1.確定url, 向服務器發送請求 url = 'https://search.51job.com/list/010000,000000,0000,00,9,99,Python%25E7%2588%25AC%25E8%2599%25AB,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='# 2.發起請求, 獲取響應 ret = requests.get(url='https://search.51job.com/list/010000,000000,0000,00,9,99,Python%25E7%2588%25AC%25E8%2599%25AB,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=', headers=headers)# 3.對相應數據進行編碼 ret.encoding = 'gbk'# 4.數據持久化 with open('bs.html', 'w', encoding='gbk') as f:f.write(ret.text)

3.requests模塊基本使用

1.get請求:不攜帶參數的get請求: 搜狗首頁不攜帶參數的get請求 + headers: 爬取知乎的發現頁攜帶參數的get請求 + headers: 知乎的發現欄中搜索Pythonres = requests.get(url=url, headers=headers, params=params)2.post請求: 構建參數的post請求3.響應數據的獲取與屬性(1).響應數據的獲取:res.text: 文本數據res.json(): json數據res.content: 流, 圖片, 視頻, 壓縮包, 軟件包(2).響應的其他屬性:res.status_code: 獲取響應狀態碼res.headers: 響應頭res.cookie: cookie信息

3.1 requests模塊的get請求

# 不攜帶參數的get請求: 爬取搜狗主頁 import requests url = 'https://www.sogou.com/' res = requests.get(url=url) print(res) print(res.text)with open('sougou.html', 'w', encoding='utf-8') as f:f.write(res.text) # 不攜帶參數的get請求 + headers: 爬取知乎的發現頁 import requests headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36' } url = 'https://www.zhihu.com/explore' res = requests.get(url=url, headers=headers) with open('zhihu.html', 'w', encoding='utf-8') as f:f.write(res.text) # 攜帶參數的get請求 + headers: 知乎的發現欄中搜索Python import requests headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36' } url= 'https://www.zhihu.com/search?' params = {'type':'content','q':'python' }res = requests.get(url=url, headers=headers, params=params) print(res) print(res.text) with open('python.html', 'w', encoding='utf-8') as f:f.write(res.text)

3.2 requests模塊的post請求

# requests的post請求: 以post方式請求httpbin.org/post時會返回提交的請求信息 import requests headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36' } url = 'http://httpbin.org/post' data = {'name': 'spiderman','age': 8 } res = requests.post(url=url, headers=headers, data=data) print(res.text)

3.3 json形式與流形式的響應數據示例

# json形式響應數據示例: bilibili的Python視頻教程, 目錄列表 import requests headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36' } url = 'https://api.bilibili.com/x/web-interface/view?aid=14184325&cid=23153678' res = requests.get(url=url, headers=headers) print(res) print(res.status_code) print(res.headers) print('-----------------------------------------------------------------------------') print(res.json()) # 流形式響應數據示例: 站長素材的簡歷模板 import requests headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36' } url = 'http://fjdx.sc.chinaz.net/Files/DownLoad/jianli/201907/jianli10810.rar' res = requests.get(url=url, headers=headers) print(res.content) with open('janli.rar', 'wb') as f:f.write(res.content)

總結

以上是生活随笔為你收集整理的爬虫的基本知识第一个请求requests模块的基本使用的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： Can‘t connect to MyS
下一篇： xpath解析库的语法及使用