Mac python Tesseract 验证码识别
Tesseract
簡介
Tesseract(/'tes?r?kt/) 這個詞的意思是"超立方體",指的是幾何學里的四維標準方體,又稱"正八胞體"。不過這里要講的,是一款以其命名的開源 OCR(Optical Character Recognition, 光學字符識別) 軟件。
所謂 OCR 是圖像識別領域中的一個子領域,該領域專注于對圖片中的文字信息進行識別并轉換成能被常規文本編輯器編輯的文本。
在 1995 年 Tesseract 曾是世界前三的 OCR 引擎,而且在現在的免費 OCR 引擎中,其識別精度也仍然是出類拔萃的。因為其免費與較好的效果,許多的個人開發者以及一些較小的團隊在使用著 Tesseract ,諸如驗證碼識別、車牌號識別等應用中,不難見到 Tesseract 的身影。
程序安裝
安裝PIL
pip install Pillow安裝Tesseract
pip install tesseract安裝pytesseract
pip install pytesseract?
編寫程序
import pytesseract from PIL import Imageimage = Image.open('code1.png')vcode = pytesseract.image_to_string(image) print(vcode)圖片
?
運行程序報如下錯誤
pytesseract.pytesseract.TesseractError
pytesseract.pytesseract.TesseractError: (1, 'Error opening data file /usr/local/Cellar/tesseract/3.05.01/share/tessdata/chi_sim.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory. Failed loading language \'chi_sim\' Tesseract couldn\'t load any languages! Could not initialize tesseract.')處理辦法如下:
安裝tesseract-ocr
分別下載?
tesseract-ocr? 和??tesseract-ocr語言包
下載解壓后放到 site-packages/tesseract/即可
如下圖
?
添加環境變量
如下圖?
?
?
?
再次執行程序如下
?
?
中文識別遇到如下錯誤
?
需要添加語言包chi_sim
?
如上圖,注意我這里是3.0.1的,所以要添加比這個版本小的文件,添加了3.0.4或5的都不行。
?
?
轉載于:https://www.cnblogs.com/BlueSkyyj/p/9481178.html
總結
以上是生活随笔為你收集整理的Mac python Tesseract 验证码识别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 动态语言
- 下一篇: linux线程基础篇----线程同步与互