蜘蛛来了!
作者:老王
此蜘蛛可不是好萊塢驚悚大片里的殺人怪物,而是搜索引擎爬蟲。雖然SEO很重要,但是當形形色色的搜索引擎爬蟲蜂擁而至的時候,網站負載愈發顯得捉襟見肘,可以通過分析web日志來檢測搜索引擎爬蟲的一舉一動,不過tcpdump更酷一些,適當的修改下面的命令,你就可以隨心所欲的檢測網絡數據包:
/usr/sbin/tcpdump -i eth0 -l -s 0 -w - dst port 80 | strings | grep -i user-agent | egrep -i 'bot|crawler|slurp|spider'
命令很簡單,通過User-Agent來查詢有哪些搜索引擎爬蟲正在入侵你的網站,當然,很多不講究的搜索引擎會偽裝自己的User-Agent,所以我們不可能把他們完全過濾出來,不過通過bot, crawler, slurp, spider四個關鍵字,還是能匹配出大多數搜索引擎爬蟲的。
結果類似這樣:User-Agent: Sosospider+(+http://help.soso.com/webspider.htm)
說到這不由得要發發牢騷,騰訊sosospider的搜索行為令人發指,別期望這樣的流氓會遵守robots.txt的約束,所以還是直接用iptables屏蔽吧:
/sbin/iptables -A INPUT -s 124.115.0.0/24 -j DROP
/sbin/iptables -A INPUT -s 124.115.4.0/24 -j DROP
補充說明:有時可能會出現tcpdump錯誤提示:tcpdump: bind: Network is down。此時多半是搞錯了網絡接口,不妨eth0/eth1都試試。
參考資料, List of User Agent Strings
此蜘蛛可不是好萊塢驚悚大片里的殺人怪物,而是搜索引擎爬蟲。雖然SEO很重要,但是當形形色色的搜索引擎爬蟲蜂擁而至的時候,網站負載愈發顯得捉襟見肘,可以通過分析web日志來檢測搜索引擎爬蟲的一舉一動,不過tcpdump更酷一些,適當的修改下面的命令,你就可以隨心所欲的檢測網絡數據包:
/usr/sbin/tcpdump -i eth0 -l -s 0 -w - dst port 80 | strings | grep -i user-agent | egrep -i 'bot|crawler|slurp|spider'
命令很簡單,通過User-Agent來查詢有哪些搜索引擎爬蟲正在入侵你的網站,當然,很多不講究的搜索引擎會偽裝自己的User-Agent,所以我們不可能把他們完全過濾出來,不過通過bot, crawler, slurp, spider四個關鍵字,還是能匹配出大多數搜索引擎爬蟲的。
結果類似這樣:User-Agent: Sosospider+(+http://help.soso.com/webspider.htm)
說到這不由得要發發牢騷,騰訊sosospider的搜索行為令人發指,別期望這樣的流氓會遵守robots.txt的約束,所以還是直接用iptables屏蔽吧:
/sbin/iptables -A INPUT -s 124.115.0.0/24 -j DROP
/sbin/iptables -A INPUT -s 124.115.4.0/24 -j DROP
補充說明:有時可能會出現tcpdump錯誤提示:tcpdump: bind: Network is down。此時多半是搞錯了網絡接口,不妨eth0/eth1都試試。
參考資料, List of User Agent Strings
總結
- 上一篇: Ubuntu 17.04 安装 Open
- 下一篇: 简直不得了!DataVisor推出轻量级