WEB页面验证码自动识别并填充
2019獨角獸企業重金招聘Python工程師標準>>>
現在許多頁面在登陸的時候都需要根據驗證碼圖片輸入驗證碼,你是否經常碰到類似的想法:我能否自動識別該驗證碼并自動填充到對應的驗證碼輸入框呢?
在后續的描述中,我將一步一步的完成該想法,概要的步驟如下:
1、需要在本機安裝開源的Tesseract-OCR,并下載對應的漢子字庫,這里我不詳述,網上有許多文章;
2、因為需要自動填充,我們這里實現的方式是使用VB做一個外殼,在這個殼里頭放一個webbrowser,說白了這個webbrowser就是一個ie的對象,我們可以在這個IE對象里頭瀏覽網頁,當然我們也可以對這個ie對象進行各種操作;
3、在上述的webbrowser打開你需要訪問的、帶驗證碼的登陸頁面;
4、通過以下方法,將登陸頁面上的驗證碼圖片,保存到你的本地硬盤:
'保存網頁上圖片(按圖片鏈接查找)
Public Function SaveWebImgUrlLike(Web1 As WebBrowser, UrlLike As String, Optional SaveToFile As String, Optional url As String) As Boolean
On Error Resume Next
Dim x
Dim CtrlRange
For Each x In Web1.document.All
If x.tagName = "IMG" Then
If InStr(x.src, UrlLike) > 0 Then
url = x.src
Set CtrlRange = Web1.document.body.createControlRange()
CtrlRange.Add (x)
Clipboard.Clear
CtrlRange.execCommand ("Copy")
End If
End If
Next
On Error Resume Next
If SaveToFile <> "" Then
Kill SaveToFile
SavePicture Clipboard.GetData, SaveToFile
End If
SaveWebImgUrlLike = eRR.Number = 0
Exit Function
eRR:
End Function
'以下是調用上述方法,在這個頁面上,這個驗證碼圖片的id為frameValidationServlet
SaveWebImgUrlLike ESSWeb, "frameValidationServlet", App.Path + "/Tesseract-OCR/1.jpg", ""
4、調用Tesseract-OCR的方法將圖片轉成文本文件
ShellExe App.Path + "/Tesseract-OCR/tesseract.exe ", App.Path + "/Tesseract-OCR/1.jpg " + App.Path + "/Tesseract-OCR/1"
5、讀取文本文件中的驗證碼內容:
'獲取隨機碼
Dim randCode As String
Open App.Path + "/Tesseract-OCR/1.txt" For Input As #1
Do
Line Input #1, randCode
Loop Until EOF(1)
Close (1)
'去除回車
randCode = Replace(randCode, "" + Chr(13), "")
randCode = Replace(randCode, "" + Chr(10), "")
6、將文本文字填充到驗證碼的框里面:
ESSWeb.document.getElementById("txtVerifyCodes").Value = 識別的驗證碼
7、其它描述:Tesseract-OCR是個開源產品,如果是白底黑字的情況下,識別率還是非常高的,但如果驗證碼圖片混淆的非常厲害,那效果可能不是太理想了。我的測試頁面是聯通的ess登陸界面,該圖片雖然有混淆,但識別率仍可達到90%以上。該測試網址的網址為:http://esales.10010.com/ ,識別的圖片如:
轉載于:https://my.oschina.net/hetiangui/blog/133431
總結
以上是生活随笔為你收集整理的WEB页面验证码自动识别并填充的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: png、jpg等图片格式转eps,用于l
- 下一篇: SSD接口详解,再也不会买错固态硬盘了