爬虫笔记之邮箱混淆
一、為什么需要郵箱混淆
先來解釋一下什么是郵箱混淆,郵箱混淆就是對頁面上的郵箱進行處理,使用JS加密、HTML隱藏元素干擾、圖片顯示等方式增加爬蟲獲取的難度。很多人都有過這種體驗,當在網絡上留下自己的郵箱之后,過不了多久這個郵箱就會收到一堆亂七八糟的垃圾郵件,都是一些廣告、詐騙信息等。這是因為每時每刻都有爬蟲在掃描互聯網上的郵箱對其推送垃圾信息,應對這種情況,一般會有兩種應對策略,一種就是盡量不在網絡上留下自己的郵箱,這種辦法屬于鴕鳥政策,因為害怕所以就逃避不去面對這個問題,這個解決方案不大好。另一種辦法就是雖然留下郵箱,但是刻意去增加爬蟲獲取信息的難度同時盡量不去增加人獲取信息的難度,即盡量讓人閱讀友好但程序解析困難。本篇文章主要圍繞第二種方式闡述增加爬蟲獲取郵箱難度的幾種方法。
雖然本文是在講郵箱混淆,但這個問題其實可以抽象為短文本如何反爬,即如何保護用戶的重要信息字段不被爬蟲獲取,這些字段也可以是手機號、QQ號、居住地等等。
二、如何增加爬蟲獲取信息難度
2.1 留郵箱時破壞格式
對于增加爬蟲獲取郵箱的難度,大致可分為兩類,一種是留下郵箱的人在留的過程中對其格式破壞增加爬蟲識別難度,比如我的郵箱是foo@bar.com,那么我留下郵箱的時候就會留下比如foo#bar.com,這種是比較流行的格式,人一看就知道是個郵箱地址,但是就是太過于簡單人一看就知道是郵箱地址,爬蟲也能,對于這種格式的,爬蟲只需要多加一個模式匹配即可兼容。那好吧,現在為了增加爬蟲識別的難度?
總結
- 上一篇: html百叶窗效果代码,纯CSS 3D百
- 下一篇: iloc与loc