网络爬虫的基本概念
1 . 數據來源:
2 . 爬蟲的定義 : 爬蟲又稱網頁蜘蛛,網絡機器人,是一種按照一定規則,自動抓取互聯網上相應的信息。
3 . 爬蟲的工作原理 :
?????? 1 . 網頁三大特征:
1 . 有自己唯一的URL(統一資源定位器)一個URL是由四部分組成:“協議,域名,路徑,參數”。
????????????? 2 . 都是使用HTML來描述頁面
????????????? 3 . 都使用HTTP/https(超文本傳輸協議)來傳輸HTML數據
?????? 2 . 爬蟲的設計思路:
????????????? 1 . 指定需要爬取的URL地址
????????????? 2 . 通過HTTP/HTTPS獲取對應的HTML頁面
????????????? 3 . 提取需要的數據
?????? 3 . 為什么選擇python做爬蟲?
????????????? :代碼簡潔,效率高,模塊多,調用其他接口也方便
4 . 爬蟲的分類
?????? ?通用爬蟲和聚焦爬蟲
????????????? 通用爬蟲:抓取互聯網所有的資源。例如:百度,谷歌等搜索引擎。
????????????? 聚焦爬蟲:可以選擇性的抓取需要的數據
5 . DNS(domain Name System)是“域名系統”的英文縮寫,用于將域名轉換成ip地址
6 . HTTP/https協議:
?????? 協議概念:通信計算機雙方必須遵守的約定
HTTP協議:超文本傳輸協議,是一個基于請求與響應,無狀態的應用層協議
https協議:是以安全為目標的HTTP通道,建立一個信息安全的通道,保證數據傳輸的安全
7 . HTTP三次握手和四處揮手
?????? 三次握手:是指建立鏈接時,需要客戶端和服務器總共發送三個包,進行三次握手的主要作用就是為了確認雙方接收能力和發送能力是否正常
?????? 四次揮手:斷開鏈接時,第一次揮手:客戶端發送一個請求用來關閉客戶端與服務器的數據傳輸,第二次揮手:服務器收到客戶端發來的請求,第三次揮手:服務器關閉與客戶端的鏈接,并發送一個請求給客戶端,第四次揮手:關閉鏈接
總結
- 上一篇: DIV中文字不换行解决办法
- 下一篇: jQuery 请指出'$'和'$.fn'