光学字符识别 Tesseract-OCR 的下载、安装和基本用法
OCR:即Optical Character Recognition,光學(xué)字符識別,是指檢查紙或者圖片上打印的字符,通過檢測暗、亮的模式確定其形狀,然后用字符識別方法將形狀翻譯成計(jì)算機(jī)文字的過程;
Tesseract-OCR:一款由HP實(shí)驗(yàn)室(惠普布里斯托實(shí)驗(yàn)室)開發(fā),由Google維護(hù)的開源OCR引擎,可以經(jīng)過不斷的訓(xùn)練,增強(qiáng)圖像轉(zhuǎn)換文本的能力,Tesseract-OCR 也經(jīng)常被用于Python爬蟲的驗(yàn)證碼識別
1、下載安裝Tesseract-OCR
官方GitHub地址:https://github.com/tesseract-ocr/
下載地址一:https://github.com/UB-Mannheim/tesseract/wiki (僅Windows操作系統(tǒng),最新版本)
下載地址二:https://digi.bib.uni-mannheim.de/tesseract/ (僅Windows操作系統(tǒng),歷史版本)
下載地址三:https://github.com/tesseract-ocr/tesseract/wiki (其他操作系統(tǒng))
以下以 V5.0.0 版本為例進(jìn)行安裝,雙擊 tesseract-ocr-w64-setup-v5.0.0-alpha.20190708.exe 安裝程序,基本上一直next就OK了,注意要勾選 Additional language data(download) 安裝OCR識別支持的語言包
在這里勾選 Additional language data(download) ,安裝OCR識別支持的語言包,在安裝語言包時會比較慢,所以建議不要全選,根據(jù)需要選擇即可,若后期需要增加語言包,可在官網(wǎng)下載后放到Tesseract-OCR\tessdata\tessconfigs目錄下即可,不同版本的對應(yīng)的語言包也不同,下載地址:https://github.com/tesseract-ocr/tesseract/wiki/Data-Files#data-files-for-version-302
2、配置環(huán)境變量
依次右鍵【此電腦】-【屬性】-【高級系統(tǒng)設(shè)置】-【環(huán)境變量】,在【系統(tǒng)變量】里找到【Path】變量,選擇【編輯】-【新建】,將你的Tesseract-OCR安裝路徑填寫進(jìn)去,比如我的是:E:\Tesseract-OCR,點(diǎn)擊確定保存即可
3、測試是否成功安裝
打開cmd,輸入 tesseract 會顯示一些 Tesseract-OCR 相關(guān)用法提示,輸入 tesseract -v 可以查看到 Tesseract-OCR 的版本信息,說明此時安裝成功
4、基本用法
完整命令:tesseract 圖片路徑和圖片名 結(jié)果路徑和結(jié)果名 -l 語言
舉例:tesseract F:\code\test.png F:\code\result -l eng
注意:
1、需要識別的圖片要加后綴
2、結(jié)果文件名不需要加后綴,會自動加后綴,生成的是txt文件
3、-l 是英文字母l,不是數(shù)字1,language 語言的意思,不加默認(rèn)英文
4、eng 表示英文,chi_sim 表示簡體中文
5、將cmd切換到要識別圖片的文件夾后,就不用加圖片路徑
在 Python 中使用:(需要安裝 pytesseract 庫)
總結(jié)
以上是生活随笔為你收集整理的光学字符识别 Tesseract-OCR 的下载、安装和基本用法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 不调好绝不发布!雷军超前带货小米12 U
- 下一篇: 育碧女汉子接管DICE