爬虫的基本知识第一个请求requests模块的基本使用
文章目錄
- 1.請求過程與網頁基礎
- 1.1 URL介紹
- 1.2 HTTP請求過程
- 1.3請求
- 1.4 響應
- 1.4 網頁基礎
- 2.第一個請求
- 2.1 爬蟲工作流(復習)
- 2.2 第一個爬蟲
- 3.requests模塊基本使用
- 3.1 requests模塊的get請求
- 3.2 requests模塊的post請求
- 3.3 json形式與流形式的響應數據示例
1.請求過程與網頁基礎
1.1 URL介紹
- URL(Uniform Resource Locator),統一資源定位符,是互聯網上標準資源的地址
- 組成:<協議>://<主機>:<端口>/<路徑>
不同scheme的URL一般只包括其中的部份組件,其中最重要的3個部份是方案(scheme)、主機(host)和路徑(path)
1.2 HTTP請求過程
# 請求過程:客戶端, 通常指web瀏覽器或APP向服務器發起請求, 服務器接收到請求進行處理, 并向客戶端發起響應.1.3請求
請求方法:常見有8種
- GET: 請求頁面, 并返回頁面內容
- POST: 用于提交表單數據或上傳文件, 數據包含在請求體中
- PUT: 從客戶端向服務器傳送的數據取代指定文檔中的內容
- DELETE: 請求服務器刪除指定的頁面
- HEAD: 類似于GET請求,只不過返回的響應中沒有具體的內容,用于獲取報頭
- CONNECT: 把服務器當作跳板,讓服務器代替客戶端訪問其他網頁
- OPTIONS: 允許客戶端查看服務器的性能
- TRACE: 回顯服務器收到的請求,主要用于測試或診斷
- 重點掌握GET & POST : GET與POST的區別(重點) --> (面試出鏡率較高)
( 1.GET請求中的參數包含在URL里面, 數據可以在URL中看到, 而POST請求的URL不會包含這些數據, POST的數據都是通過表單形式傳輸的, 會包含在請求體中
2.GET請求提交的數據最多只有1024字節, 而POST方式沒有限制)
請求頭:
請求頭,用來說明服務器要使用的附加信息. 重點掌握: Accept, Cookie, Referer, User-Agent
1.Accept:請求報頭域,用于指定客戶端可接受哪些類型的信息
2.Cookie:也常用復數形式 Cookies,這是網站為了辨別用戶進行會話跟蹤而存儲在用戶本地的數據。它的主要功能是維持當前訪問會話。例如,我們輸入用戶名和密碼成功登錄某個網站后,服務器會用會話保存登錄狀態信息,后面我們每次刷新或請求該站點的其他頁面時,會發現都是登錄狀態,這就是Cookies的功勞。Cookies里有信息標識了我們所對應的服務器的會話,每次瀏覽器在請求該站點的頁面時,都會在請求頭中加上Cookies并將其發送給服務器,服務器通過Cookies識別出是我們自己,并且查出當前狀態是登錄狀態,所以返回結果就是登錄之后才能看到的網頁內容
3.Referer:此內容用來標識這個請求是從哪個頁面發過來的,服務器可以拿到這一信息并做相應的處理,如作來源統計、防盜鏈處理等
4.User-Agent:簡稱UA,它是一個特殊的字符串頭,可以使服務器識別客戶使用的操作系統及版本、瀏覽器及版本等信息。在做爬蟲時加上此信息,可以偽裝為瀏覽器;如果不加,很可能會被識別出為爬蟲 # 重點
5.x-requested-with :XMLHttpRequest # 代表ajax請求
5.Accept-Language:指定客戶端可接受的語言類型
6.Accept-Encoding:指定客戶端可接受的內容編碼
7.Content-Type:也叫互聯網媒體類型(Internet Media Type)或者MIME類型,在HTTP協議消息頭中,它用來表示具體請求中的媒體類型信息。例如,text/html代表HTML格式,image/gif代表GIF圖片,application/json代表JSON類型
1.4 響應
# 響應, 是由服務端返回給客戶端的, 可以分為三部分: 響應狀態碼(response status code), 響應頭(response headers), 響應體(response body)響應狀態碼: 用于判斷請求后的相應狀態, 如200代表請求成功, 404代表頁面頁面找不到, 500代表服務器錯誤
常見的狀態碼:
200系列:
200 成功 服務器已成功處理了請求
300系列:
301 永久移動 請求的網頁已永久移動到新位置,即永久重定向 # 重點
302 臨時移動 請求的網頁暫時跳轉到其他頁面,即暫時重定向 # 重點
400系列:
400 錯誤請求 服務器無法解析該請求 # 重點
401 未授權 請求沒有進行身份驗證或驗證未通過
403 禁止訪問 服務器拒絕此請求 # 重點
404 未找到 服務器找不到請求的網頁
500系列:
500 服務器內部錯誤 服務器遇到錯誤,無法完成請求 # 重點
501 未實現 服務器不具備完成請求的功能
502 錯誤網關 服務器作為網關或代理,從上游服務器收到無效響應
504 網關超時 服務器作為網關或代理,但是沒有及時從上游服務器收到請求
505 HTTP版本不支持 服務器不支持請求中所用的HTTP協議版本
(注意: 狀態碼不能完全代表響應狀態, 部分網站的狀態碼是自定義的, 一切以響應的數據為準)
# 響應頭: 響應頭包含了服務器對請求的應答信息 Date:標識響應產生的時間。 Content-Encoding:指定響應內容的編碼。Server:包含服務器的信息,比如名稱、版本號等。Content-Type:文檔類型,指定返回的數據類型是什么,如text/html代表返回HTML文檔, application/x-javascript則代表返回JavaScript文件,image/jpeg則代表返回圖片。Set-Cookie:設置Cookies。響應頭中的Set-Cookie告訴瀏覽器需要將此內容放在Cookies中, 下次請求攜帶Cookies請求。Expires:指定響應的過期時間,可以使代理服務器或瀏覽器將加載的內容更新到緩存中。 如果再次訪問時,就可以直接從緩存中加載,降低服務器負載,縮短加載時間。 # 響應體: 最重要的當屬響應體的內容了。響應的正文數據都在響應體中,比如請求網頁時, 它的響應體就是網頁的HTML代碼;請求一張圖片時,它的響應體就是圖片的二進制數據。 我們做爬蟲請求網頁后,要解析的內容就是響應體.1.4 網頁基礎
# 網頁的組成: 網頁可以分為三部分, HTML, CSS, JavaScript 1.HTML: 其全稱叫作Hyper Text Markup Language,即超文本標記語言。定義了網頁的骨架2.CSS: 全稱叫作Cascading Style Sheets,即層疊樣式表。定義了網頁的樣式3.JavaScript: 簡稱JS,是一種腳本語言定義了網頁與用戶的交互行為, 如下載進度條, 提示框, 輪播圖2.第一個請求
2.1 爬蟲工作流(復習)
- 確定url, 向服務器發送請求并獲得響應: requests, urllib, aiohttp
- 在響應中提取目標數據, 即數據解析: xpath, bs4, 正則, PyQuery
- 數據持久化: 文件, 關系型數據庫, 非關系型數據庫
2.2 第一個爬蟲
# requests庫的安裝 pip install requests # 需求: 爬取百度首頁, 并寫入文件中, 最后用瀏覽器打開文件查看效果import requests# 1.確定url, 向服務器發送請求 url = 'https://www.baidu.com' res = requests.get(url=url)# 2.操作響應數據, 獲取目標數據 res.encoding = 'utf-8'# 3.將目標數據持久化到本地: 寫入文件 with open('baidu.html', 'w', encoding='utf-8') as f:f.write(res.text) # 需求: 爬取前程無憂, 并寫入文件, 最后用瀏覽器打開文件查看結果 import requests# 1.確定url, 向服務器發送請求 url = 'https://search.51job.com/list/010000,000000,0000,00,9,99,Python%25E7%2588%25AC%25E8%2599%25AB,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='# 2.發起請求, 獲取響應 ret = requests.get(url='https://search.51job.com/list/010000,000000,0000,00,9,99,Python%25E7%2588%25AC%25E8%2599%25AB,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=', headers=headers)# 3.對相應數據進行編碼 ret.encoding = 'gbk'# 4.數據持久化 with open('bs.html', 'w', encoding='gbk') as f:f.write(ret.text)3.requests模塊基本使用
1.get請求:不攜帶參數的get請求: 搜狗首頁不攜帶參數的get請求 + headers: 爬取知乎的發現頁攜帶參數的get請求 + headers: 知乎的發現欄中搜索Pythonres = requests.get(url=url, headers=headers, params=params)2.post請求: 構建參數的post請求3.響應數據的獲取與屬性(1).響應數據的獲取:res.text: 文本數據res.json(): json數據res.content: 流, 圖片, 視頻, 壓縮包, 軟件包(2).響應的其他屬性:res.status_code: 獲取響應狀態碼res.headers: 響應頭res.cookie: cookie信息3.1 requests模塊的get請求
# 不攜帶參數的get請求: 爬取搜狗主頁 import requests url = 'https://www.sogou.com/' res = requests.get(url=url) print(res) print(res.text)with open('sougou.html', 'w', encoding='utf-8') as f:f.write(res.text) # 不攜帶參數的get請求 + headers: 爬取知乎的發現頁 import requests headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36' } url = 'https://www.zhihu.com/explore' res = requests.get(url=url, headers=headers) with open('zhihu.html', 'w', encoding='utf-8') as f:f.write(res.text) # 攜帶參數的get請求 + headers: 知乎的發現欄中搜索Python import requests headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36' } url= 'https://www.zhihu.com/search?' params = {'type':'content','q':'python' }res = requests.get(url=url, headers=headers, params=params) print(res) print(res.text) with open('python.html', 'w', encoding='utf-8') as f:f.write(res.text)3.2 requests模塊的post請求
# requests的post請求: 以post方式請求httpbin.org/post時會返回提交的請求信息 import requests headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36' } url = 'http://httpbin.org/post' data = {'name': 'spiderman','age': 8 } res = requests.post(url=url, headers=headers, data=data) print(res.text)3.3 json形式與流形式的響應數據示例
# json形式響應數據示例: bilibili的Python視頻教程, 目錄列表 import requests headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36' } url = 'https://api.bilibili.com/x/web-interface/view?aid=14184325&cid=23153678' res = requests.get(url=url, headers=headers) print(res) print(res.status_code) print(res.headers) print('-----------------------------------------------------------------------------') print(res.json()) # 流形式響應數據示例: 站長素材的簡歷模板 import requests headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36' } url = 'http://fjdx.sc.chinaz.net/Files/DownLoad/jianli/201907/jianli10810.rar' res = requests.get(url=url, headers=headers) print(res.content) with open('janli.rar', 'wb') as f:f.write(res.content)總結
以上是生活随笔為你收集整理的爬虫的基本知识第一个请求requests模块的基本使用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Can‘t connect to MyS
- 下一篇: xpath解析库的语法及使用