python实现ORC/文字识别之pytesseract
比較方便使用的文字識別有兩種,在這里縣介紹第一種通過安裝pytesseract就可以使用的方法。
首先是搭建好python環(huán)境和安裝pycharm編碼運(yùn)行工具,這里不做贅述。
下載和安裝pytesseract庫
網(wǎng)址: https://digi.bib.uni-mannheim.de/tesseract/
可以下載較新的版本,下載安裝到自己的目錄就行,我安裝的目錄是D://Tesseract,安裝比較新的版本還帶有語言選擇功能,安裝過程中可以選擇語言包(或者在下一步下載語言包配置)。
安裝完后就需要在電腦上配置環(huán)境:我的電腦(右鍵)>>高級系統(tǒng)配置>>環(huán)境變量>>系統(tǒng)環(huán)境變量>>PATH(把pytesseract安裝目錄加上)。
下載安裝語言包
pytesseract包含的沒有中文,如果安裝的時候沒有安裝中文,可以在這一步下載中文包安包然后配置。
網(wǎng)址: https://tesseract-ocr.github.io/tessdoc/Data-Files
中文包有兩個,一個是簡體chi_sim.traineddata,一個是繁體chi_tra.traineddata,一般是下載簡體的,如果你需要的話都下載。
下載完后,放到安裝目錄的tessdata文件下即可。
還需要兩個模塊
pip install pytesseract pip install pillow最后一步
出現(xiàn)這個錯誤:
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it’s not in your PATH. See README file for more information.
那便是沒有修改路徑的問題。有了pycharm編輯器,可以直接點(diǎn)擊pytesseract.py文件,找到源碼中的tesseract = 'tesseract‘
將其改為自己的安裝目錄下的tesseract.exe,我的如下:
到這里,環(huán)境配置就完成了。
下面可以跑一下代碼。
大功告成!!!
這里是引用,感謝大佬
https://blog.csdn.net/weixin_42277380/article/details/106200177
https://blog.csdn.net/wang_hugh/article/details/80760940
總結(jié)
以上是生活随笔為你收集整理的python实现ORC/文字识别之pytesseract的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2014省赛----神奇算式(填空)
- 下一篇: MySql自动同步主库数据(Canal)