當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

爬虫笔记：爬虫的基本原理

發布時間：2024/9/30 编程问答 28 豆豆

生活随笔收集整理的這篇文章主要介紹了爬虫笔记：爬虫的基本原理小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

1.什么是爬蟲

請求?站并提取數據的?動化程序

2.爬蟲基本流程

發起請求。通過HTTP庫向?標站點發起請求，即發送?個Request，請求可以包含額外的headers等信息，等待服務器響應。
獲取響應內容。如果服務器能正常響應，會得到?個Response，Response的內容便是所要獲取的??內容，類型可能有HTML，Json字符串，?進制數據（如圖?視頻）等類型。
解析內容，得到的內容可能是HTML，可以?正則表達式、??解析庫進?解析。可能是Json，可以直接轉為Json對象解析，可能是?進制數據，可以做保存或者進?步的處理。
保存數據。保存形式多樣，可以存為?本，也可以保存?數據庫，或者保存特定格式的?件。

3.什么是Request和Response?

瀏覽器就發送消息給該?址所在的服務器，這個過程叫做HTTP Request。
服務器收到瀏覽器發送的消息后，能夠根據瀏覽器發送消息的內容，做相應處理，然后把消息回傳給瀏覽器。這個過程叫做HTTP Response。
瀏覽器收到服務器的Response信息后，會對信息進?相應處理，然后展示。

Request

請求?式.主要有GET、POST兩種類型，另外還有HEAD、PUT、DELETE、OPTIONS等。
請求URL.URL全稱統?資源定位符，如?個???檔、?張圖?、?個視頻等都可以?URL唯?來確定。
請求頭.包含請求時的頭部信息，如User-Agent、Host、Cookies等信息。
請求體.請求時額外攜帶的數據如表單提交時的表單數據.

Response

響應狀態.有多種響應狀態，如200代表成功、301跳轉、404找不到??、502服務器錯誤
響應頭.如內容類型、內容?度、服務器信息、設置Cookie等等。
響應體.最主要的部分，包含了請求資源的內容，如??HTML、圖??進制數據等。

4.能抓怎樣的數據？

???本.如HTML?檔、Json格式?本等。
圖?.獲取到的是?進制?件，保存為圖?格式。
如定位圖中圖片網址復制下來

import requests response = requests.get('https://h.2345cdn.net/i/search20200812/pic-1.png')#響應 print(response.content)#打印二進制格式,圖片為二進制#寫入文件 with open('D:\\deeplearn\\xuexicaogao\\百度.jpg','wb') as f:f.write(response.content)f.close() print('結束')

視頻。同為?進制?件，保存為視頻格式即可。
其他。只要是能請求到的，都能獲取。

5.解析?式

我們需要對得到的網頁源代碼進行解析，解析方式有如下

直接處理。構造簡單，內容簡單可以直接處理
Json解析。
正則表達式
BeautifulSoup
XPath
PyQuery

6.如何保存數據

?本。純?本、Json、Xml等。
關系型數據庫。如MySQL、Oracle、SQL Server等具有結構化表結構形式存儲。
?關系型數據庫。如MongoDB、Redis等Key-Value形式存儲。
?進制?件。如圖?、視頻、?頻等等直接保存成特定格式即可。

創作不易，大佬請留步… 動起可愛的雙手，來個贊再走唄 (???￩?)

總結

以上是生活随笔為你收集整理的爬虫笔记：爬虫的基本原理的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： pandas.read_html()读取
下一篇：怎样将大蒜和洋葱一起用油小火微炸保管不坏