當(dāng)前位置：首頁 > 编程语言 > python >内容正文

python

python实现ORC/文字识别之pytesseract

發(fā)布時間：2023/12/18 python 52 豆豆

生活随笔收集整理的這篇文章主要介紹了 python实现ORC/文字识别之pytesseract 小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

比較方便使用的文字識別有兩種，在這里縣介紹第一種通過安裝pytesseract就可以使用的方法。
首先是搭建好python環(huán)境和安裝pycharm編碼運(yùn)行工具，這里不做贅述。

下載和安裝pytesseract庫

網(wǎng)址： https://digi.bib.uni-mannheim.de/tesseract/
可以下載較新的版本，下載安裝到自己的目錄就行，我安裝的目錄是D://Tesseract，安裝比較新的版本還帶有語言選擇功能，安裝過程中可以選擇語言包（或者在下一步下載語言包配置）。
安裝完后就需要在電腦上配置環(huán)境：我的電腦（右鍵）>>高級系統(tǒng)配置>>環(huán)境變量>>系統(tǒng)環(huán)境變量>>PATH(把pytesseract安裝目錄加上)。

下載安裝語言包

pytesseract包含的沒有中文，如果安裝的時候沒有安裝中文，可以在這一步下載中文包安包然后配置。
網(wǎng)址： https://tesseract-ocr.github.io/tessdoc/Data-Files
中文包有兩個，一個是簡體chi_sim.traineddata，一個是繁體chi_tra.traineddata，一般是下載簡體的，如果你需要的話都下載。
下載完后，放到安裝目錄的tessdata文件下即可。

還需要兩個模塊

pip install pytesseract pip install pillow

最后一步

出現(xiàn)這個錯誤：
pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it’s not in your PATH. See README file for more information.

那便是沒有修改路徑的問題。有了pycharm編輯器，可以直接點(diǎn)擊pytesseract.py文件，找到源碼中的tesseract = 'tesseract‘
將其改為自己的安裝目錄下的tesseract.exe，我的如下：

到這里，環(huán)境配置就完成了。
下面可以跑一下代碼。

import pytesseract from PIL import Image# 讀取圖片 im = Image.open('1.png') # 識別文字，并指定語言 string = pytesseract.image_to_string(im, lang='chi_sim') print print(string)

大功告成！！！

這里是引用，感謝大佬
https://blog.csdn.net/weixin_42277380/article/details/106200177
https://blog.csdn.net/wang_hugh/article/details/80760940

總結(jié)

以上是生活随笔為你收集整理的python实现ORC/文字识别之pytesseract的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： 2014省赛----神奇算式（填空）
下一篇： MySql自动同步主库数据（Canal）