爬虫的笔记
爬蟲:?
? ? 網絡爬蟲(又稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。
? ? 2.自己理解:
? ? ? ? 通過代碼、模擬瀏覽器上網 然后抓取數據的過程
2.爬蟲是否合法?
? ? 1.法律允許
? ? 2.有法律風險的
3.統一規定? 【法律界限】
? ? robots.txt協議
4.爬蟲的分類:
? ? 1.獲取一整張頁面 【通用爬蟲】
? ? 2.獲取一整張頁面 部分數據 【聚焦爬蟲】
? ? 3.檢查頁面更新、獲取頁面最新的更新的數據 【增量式爬蟲】
5.爬蟲的規則:
? ? 1.反爬策略:
? ? ? ? 門戶網站 通過 技術手段 防止爬蟲程序對頁面爬取數據
? ? 2.反 反爬策略
? ? ? ? 爬蟲程序 通過 技術手段 對頁面爬取數據
http 與https?
? ? service 與 client 進行數據交互的一種形式
request:?
? ? User-Agent: 請求載體的身份標識
response:?
? ? Content-Type:服務器響應client的數據類型
?
總結
- 上一篇: 迪拜政府和当地银行合作推出基于区块链的贷
- 下一篇: 《美国职业橄榄球大联盟》:NFL·橄榄1