爬虫普及,Web安全更需注意
互聯(lián)網(wǎng)技術(shù)上不斷發(fā)展,Python的普及以及代理ip的進(jìn)一步穩(wěn)定,爬蟲技術(shù)也得到了前所未有的優(yōu)化。過去我們或許還會為抓取海量數(shù)據(jù)而頭痛。但現(xiàn)在,不斷優(yōu)化的網(wǎng)絡(luò)爬蟲技術(shù),卻能夠輕松應(yīng)對這個問題,為高效搜索用戶關(guān)注的特定領(lǐng)域與主題提供了有力支撐。而網(wǎng)絡(luò)爬蟲現(xiàn)在也逐漸發(fā)展成為涵蓋數(shù)據(jù)抽取、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、語義理解等多種方法綜合應(yīng)用的智能工具。
凡事都有兩面性,網(wǎng)絡(luò)爬蟲帶太陽HTTP來便利的同時,也網(wǎng)站的安全問題帶來了不小的隱患,惡意用戶可以利用爬蟲程序?qū)eb站點發(fā)動DoS***,使Web服務(wù)在大量爬蟲程序的暴力訪問下,資源耗盡而不能提供正常服務(wù)。惡意用戶還可能通過網(wǎng)絡(luò)爬蟲抓取各種敏感資料用于不正當(dāng)用途,主要表現(xiàn)在以下幾個方面:
1)搜索測試頁面、手冊文檔、樣本程序及可能存在的缺陷程序
大多數(shù)Web服務(wù)器軟件附帶了測試頁面、幫助文檔、樣本程序及調(diào)試用后門程序等。這些文件往往會泄漏大量的系統(tǒng)信息甚至提供繞過認(rèn)證直接訪問Web服務(wù)數(shù)據(jù)的方法,成為惡意用戶分析***Web服務(wù)器的有效情報來源。而且這些文件的存在本身也暗示網(wǎng)站中存在潛在的安全漏洞。
2)搜索互聯(lián)網(wǎng)用戶的個人資料
互聯(lián)網(wǎng)用戶的個人資料包括姓名、×××號、電話、Email地址、QQ號、通信地址等個人信息,惡意用戶獲取后容易利用社會工程學(xué)實施***或詐騙。
3)搜索管理員登錄頁面
許多網(wǎng)絡(luò)產(chǎn)品提供了基于Web的管理接口,允許管理員在互聯(lián)網(wǎng)中對其進(jìn)行遠(yuǎn)程管理與控制。如果管理員疏于防范,沒有修改網(wǎng)絡(luò)產(chǎn)品默認(rèn)的管理員名及密碼,一旦其管理員登錄頁面被惡意用戶搜索到,網(wǎng)絡(luò)安全將面臨極大的威脅。
4)搜索目錄列表
互聯(lián)網(wǎng)中的許多Web服務(wù)器在客戶端請求該站點中某個沒有默認(rèn)頁面的目錄時,會返回一個目錄列表。該目錄列表通常包括可供用戶點擊的目錄和文件鏈接,通過這些鏈接可以訪問下一層目錄及當(dāng)前目錄中的文件。因而通過抓取目錄列表,惡意用戶往往可獲取大量有用的資料,包括站點的目錄結(jié)構(gòu)、敏感文件以及 Web服務(wù)器設(shè)計架構(gòu)及配置信息等等,比如程序使用的配置文件、日志文件、密碼文件、數(shù)據(jù)庫文件等,都有可能被網(wǎng)絡(luò)爬蟲抓取。這些信息可以作為挑選***目標(biāo)或者直接***站點的重要資料。
如何應(yīng)對爬蟲的安全威脅
由于網(wǎng)絡(luò)爬蟲帶來的安全威脅,不少網(wǎng)站的管理人員都在考慮對爬蟲訪問進(jìn)行限制甚至拒絕爬蟲訪問。
限制爬蟲可以通過以下幾種方法實現(xiàn):
1) 設(shè)置robots.txt文件
限制爬蟲最簡單的方法是設(shè)置robots.txt文件。robots.txt文件是搜索引擎爬蟲訪問網(wǎng)站的時候要查看的第一個文件,它告訴爬蟲程序在服務(wù)器上什么文件是可以被查看的,如設(shè)置Disallow: /,則表示所有的路徑均不能查看。遺憾的是并不是所有的搜索引擎爬蟲會遵守這個規(guī)則,因此僅僅設(shè)置robots文件是不夠的。
2) User Agent識別與限制
一般的爬蟲程序都可以通過其HTTP請求中的User Agent字段進(jìn)行識別,該字段使服務(wù)器能夠識別客戶使用的操作系統(tǒng)及版本、CPU類型、瀏覽器及版本、瀏覽器渲染引擎、瀏覽器語言、瀏覽器插件等。
3) 通過訪問行為特征識別與限制
對于在HTTP請求的User Agent字段刻意偽裝成瀏覽器的爬蟲,可以通過其訪問行為特征進(jìn)行識別。爬蟲程序的訪問一般是有規(guī)律性的頻率比較高,區(qū)別于真實用戶瀏覽時的隨意性與低 頻率。對這類爬蟲的限制原理與DDoS***的防御原理很相似,都基于統(tǒng)計數(shù)據(jù)。對于這類爬蟲的限制只能通過應(yīng)用識別設(shè)備、IPS等能夠做深度識別的網(wǎng)絡(luò)設(shè) 備來實現(xiàn)。
無論是爬蟲還是反爬蟲,都少不了代理ip的支持,在互聯(lián)網(wǎng)的無聲世界里,爬蟲之間的戰(zhàn)爭從未停止過,勝利的關(guān)鍵就在于能否真正阻攔或者突破對方的侵入或者限制。這里還是呼吁,合理使用爬蟲技術(shù),不要做違法的事情。love&paece
轉(zhuǎn)載于:https://blog.51cto.com/14059916/2317361
總結(jié)
以上是生活随笔為你收集整理的爬虫普及,Web安全更需注意的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 怎么用最短时间高效而踏实地学习Pytho
- 下一篇: 2018年下半年软件设计师考试上午真题(