爬虫笔记:爬虫的基本原理
生活随笔
收集整理的這篇文章主要介紹了
爬虫笔记:爬虫的基本原理
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1.什么是爬蟲
請求?站并提取數據的?動化程序
2.爬蟲基本流程
- 發起請求。通過HTTP庫向?標站點發起請求,即發送?個Request,請求可以包含額外的headers等信息,等待服務器響應。
- 獲取響應內容。如果服務器能正常響應,會得到?個Response,Response的內容便是所要獲取的??內容,類型可能有HTML,Json字符串,?進制數據(如圖?視頻)等類型。
- 解析內容,得到的內容可能是HTML,可以?正則表達式、??解析庫進?解析。可能是Json,可以直接轉為Json對象解析,可能是?進制數據,可以做保存或者進?步的處理。
- 保存數據。保存形式多樣,可以存為?本,也可以保存?數據庫,或者保存特定格式的?件。
3.什么是Request和Response?
- 瀏覽器就發送消息給該?址所在的服務器,這個過程叫做HTTP Request。
- 服務器收到瀏覽器發送的消息后,能夠根據瀏覽器發送消息的內容,做相應處理,然后把消息回傳給瀏覽器。這個過程叫做HTTP Response。
- 瀏覽器收到服務器的Response信息后,會對信息進?相應處理,然后展示。
Request
- 請求?式.主要有GET、POST兩種類型,另外還有HEAD、PUT、DELETE、OPTIONS等。
- 請求URL.URL全稱統?資源定位符,如?個???檔、?張圖?、?個視頻等都可以?URL唯?來確定。
- 請求頭.包含請求時的頭部信息,如User-Agent、Host、Cookies等信息。
- 請求體.請求時額外攜帶的數據如表單提交時的表單數據.
Response
- 響應狀態.有多種響應狀態,如200代表成功、301跳轉、404找不到??、502服務器錯誤
- 響應頭.如內容類型、內容?度、服務器信息、設置Cookie等等。
- 響應體.最主要的部分,包含了請求資源的內容,如??HTML、圖??進制數據等。
4.能抓怎樣的數據?
- ???本.如HTML?檔、Json格式?本等。
- 圖?.獲取到的是?進制?件,保存為圖?格式。
如定位圖中圖片網址復制下來
-
視頻。同為?進制?件,保存為視頻格式即可。
-
其他。只要是能請求到的,都能獲取。
5.解析?式
我們需要對得到的網頁源代碼進行解析,解析方式有如下
- 直接處理。構造簡單,內容簡單可以直接處理
- Json解析。
- 正則表達式
- BeautifulSoup
- XPath
- PyQuery
6.如何保存數據
- ?本。純?本、Json、Xml等。
- 關系型數據庫。如MySQL、Oracle、SQL Server等具有結構化表結構形式存儲。
- ?關系型數據庫。如MongoDB、Redis等Key-Value形式存儲。
- ?進制?件。如圖?、視頻、?頻等等直接保存成特定格式即可。
創作不易,大佬請留步… 動起可愛的雙手,來個贊再走唄 (???←?)
總結
以上是生活随笔為你收集整理的爬虫笔记:爬虫的基本原理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pandas.read_html()读取
- 下一篇: 怎样将大蒜和洋葱一起用油小火微炸保管不坏