我们身边的网络流量
作者:qinglianghu
一.網絡流量中的善與惡
和我們一起在網上沖浪的不僅有你身邊的親朋好友,還有棲息在互聯網上密密麻麻的網絡爬蟲。差不多每5次的網絡瀏覽里,有2次是"虛假"的網絡爬蟲產生的。這些棲息在互聯網上的爬蟲也是有"善惡"之分的。對于那些遵守網絡規定,例如我們熟知的搜索引擎"飼養"的爬蟲們就是大家喜愛的。但是那些違反網絡規定,通過找漏洞、鉆空子賺取暴利,獲取大量隱私數的就是不受我們歡迎的。
圖1.1 2019年善惡機器和人產生流量的占比
在Imperva的《2020 Bad Bot Report 》中,我們可以看到2019年,善意的機器流量下降到了13.1%,惡意的爬蟲流量相比去年(18.1%)上升到了24.1%,幾乎占據了全網流量的四分之一。
二.惡意網絡流量現狀
1.惡意流量等級分布
惡意流量的類型可以根據爬蟲程序的復雜程度來進行劃分,Imperva 的報告中將其分成了3類。
- Simple:這種一般是簡單的容易發現的惡意請求,大概占總惡意請求的五分之一;
- Moderate:這種會更換不同的網絡環境,通過匿名代理的方式發出惡意請求;占總惡意請求的一半江山。
- Sophisticated:這種在使用匿名代理的基礎上會通過偽造鼠標軌跡、點擊等用戶交互行為來躲避檢測,幾乎能完全模擬人類的瀏覽行為。中高類型的爬蟲通常還被稱作APBs(Advanced persistent bots),占了7成的惡意流量。
圖 2.1 惡意流量等級分布
連續三年,按照復雜程度的惡意流量分布非常一致,最容易檢測到的簡單惡意請求占比為26.3%;中等占比53.6%;復雜專業的惡意請求占比20.1%。APBs占比73.7%,略高于上一年。秒撥IP技術的發展,使得很多簡單的通過IP黑名單方式限制爬蟲的方式無效。
2.不同行業惡意流量分布
惡意流量問題遍布每個行業,有一些問題是某些行業獨有的。比如只有登錄入口的網站可能遭遇的撞庫攻擊,而價格爬取則主要集中在電商行業。
圖2.2 不同行業流量分布占比
金融服務行業 連續第二年以47.7%的惡意流量占比占據所有行業受惡意流量攻擊的頭名。大部分惡意流量來自撞庫攻擊,它們的目的是獲取這些公司的用戶隱私信息。
教育行業 惡意流量占45.7%,爬蟲程序一般用于獲取論文、學生選課以及獲取賬號。
市場交易相關行業 這是另外一個受到大量惡意流量攻擊的行業,和電子商務類似這部分的爬蟲主要用于價格信息和用戶賬號的獲取。
政府 流向政府網站的流量中有37.5%的惡意流量,這部分爬蟲基本上爬取的是商業注冊信息和選舉信息。
非營利性組織 使用非盈利性組織的捐贈頁面來驗證非法手段得到的金融賬號信息的有效性,這部分流量的攻擊對于非盈利組織的服務器來說是難以處理的。
航空旅游業 航空旅游業30.5%的惡意流量組成比較復雜,這其中不僅有來自競爭對手的直接爬取,還有一部分來自第三方生態公司。未經授權的代理商、競爭對手以及二手黃牛黨使用高級爬蟲爬取票價,這不僅增加了普通用戶的交易成本,造成了很多客戶的投訴,而且爬蟲程序還會帶來服務器響應速度變慢甚至癱瘓的問題。此外,旅行公司的用戶賬號也面臨被撞庫攻擊的問題,黑灰產會試圖盜取用戶賬戶中的里程積分來牟取暴利。
3.惡意流量來源
七成的惡意流量的來自大型數據中心(云服務提供商),相較于去年略有下降。惡意流量中來自家用網絡的比例連續三年增長,又之前的22.7%上漲到了27.8%,來自移動網絡的惡意流量占比不高僅占2.3%。
圖2.3 2019年惡意流量來源分布情況
從國家角度來看,美國已經連續六年占據榜首,不過相較于去年的53.4%已經下降到了45.9%。中國以4.8%占據第四。
圖2.4 2019年惡意流量來源國家分布情況
在抵御惡意流量最多的國家分布中,俄羅斯以21.1%的占比排名第一,中國排名第二。這主要得益于這些國家針對外國網絡的封禁。
圖2.5 2019年不同多家對惡意流量阻擋情況
三.原因分析與應對方法
2019年網絡中惡意的機器流量已經達到全網流量的四分之一。不僅如此,惡意機器流量的發展已經進入了下一個階段,它們正試圖改善自己的形象,使得自己看起來合法。黑灰產運營商正在建立專業的業務,他們從其他網站上"獲取"數據、打包數據,并向愿意購買的公司提供數據。所有這些都被巧妙的包裝成了“智能商業”的服務。
惡意網絡流量快速發展的原因,大概可以歸結為如下幾點:
1.市場導向
首先,黑灰產有較大的利益可圖。目前它們已經擁有了專業外觀的網站,提供被稱為定價情報、金融替代數據或競爭洞察的商業情報服務。通常,這些企業提供專注于特定行業的數據產品。隨著市面上可以購買爬蟲爬取的數據越來越多,行業內企業間的競爭壓力越來越大。沒有企業希望自己,因為信息獲取不全而失敗。
圖3.1 某平臺的各種數據榜單
同時,隨著會員制度不斷的完善和普及,每個用戶的賬戶內都有一些可以兌換或者轉移的數字貨幣或者積分、禮物。來自數據泄露的賬戶密碼與會員制度的增長相結合,為惡意撞庫提供了便利。惡意機器程序未經許可從網站上爬取數據(例如定價、庫存等)以獲得競爭優勢。爬取的個人隱私數據甚至會被不法分子利用,從事欺詐、盜竊等違法犯罪活動。
其次,在不同領域對于流量的需求也日益增大。在中國,粉絲為自己喜歡的明星購買流量打榜已經是大家公認的手段。在美國,機器操控的社交媒體賬號設置能干預選舉的投票。
最后,現在招聘的崗位中出現了很多針對數據爬取相關的崗位,且有著很高的待遇。在這種大環境下,很難看到惡意機器流量問題的消失。
2.灰色地帶的網絡爬蟲
惡意機器流量大部分來自網絡爬蟲,爬蟲作為一種計算機技術就決定了它的中立性,因此爬蟲本身在法律上并不被禁止,但是利用爬蟲技術獲取數據這一行為是具有違法甚至是犯罪的風險的。
在2019年11月的hiQ使用爬蟲爬取Linkedin上數據的案件中。法院最終裁定的結果是:被告領英(LinkedIn)公司不得阻止hiQ公司進入、復制并使用LinkedIn網站的公開信息,亦不得采取法律或技術措施進行阻礙,若有則必須在24小時內稱除。
下面幾種手段或許能在一定程度上緩解惡意爬蟲帶來的負面影響。
禁止一些過時的User Agent請求頭,一般來說爬蟲程序的請求是隨機生成,且有很多是早些年編寫的代碼,這部分請求的UA已經過時了。
禁止一些代理服務的提供商,很多爬蟲使用的是市面上一些免費活著廉價的第三方的代理服務。禁止這些代理的請求或許是不錯的選擇。
管理好自己網站的所有訪問源。包括網站的移動web版、H5小程序版本,還有分享到第三方平臺的鏈接。
分析網站的請求日志
記錄分析網站登陸失敗的日志。
?
原文鏈接
本文為阿里云原創內容,未經允許不得轉載。
總結
- 上一篇: 蚂蚁架构师郭援非:分布式数据库是金融机构
- 下一篇: 定义下一代存储,打造全新一代数据基础设施