python怎么实现输入多行文字_介绍一个Python 包,几行代码可实现 OCR 文本识别!...
點(diǎn)擊上方 Z先生點(diǎn)記,加為星標(biāo)
第一時(shí)間收到 Python 技術(shù)干貨!
文字 OCR 識(shí)別技術(shù)現(xiàn)在已經(jīng)相當(dāng)成熟了,無(wú)論 其 準(zhǔn)確度還是識(shí)別速度 都能夠滿足我們的日常需要;今天給大家介紹一個(gè) Python 包,該包的主要功能就是用于 OCR 識(shí)別的,包的名字叫 Pyteeseract,借助這個(gè)包幾行代碼就能快速識(shí)別一張文本圖片
Pytesseract 包是由 開(kāi)源工具 Tesseract 得到的,由 Hewlett Packard 實(shí)驗(yàn)室開(kāi)發(fā),在 2005 年實(shí)行開(kāi)源;自2006 年之后由谷歌和一些優(yōu)秀的開(kāi)源貢獻(xiàn)者共同開(kāi)發(fā)維護(hù)
Tesseract 在 3.x 版本之后逐漸成熟,支持多種圖片格式并且逐步加入多語(yǔ)言文本識(shí)別;但 Tesseract 3.x 版本依舊 基于傳統(tǒng)計(jì)算機(jī)視覺(jué)算法,在過(guò)去的幾年得益于 Deep Learning 的快速迭代,無(wú)論是準(zhǔn)確率與速度方面都要優(yōu)于傳統(tǒng)算法;在 4.0 版本之后 Tesseract 加入了 Deep Learning 模塊, 是基于 Recognition 的 LSTM,而 LSTM 就是可歸類為 RNN(循環(huán)卷積神經(jīng)網(wǎng)絡(luò));
本篇文章的實(shí)驗(yàn)是基于 Tesseract3.05 版本實(shí)現(xiàn)的,最后在中文語(yǔ)言識(shí)別方面準(zhǔn)確率稍次,可能是因?yàn)闆](méi)有使用4.0+的原因在,后來(lái)才了解已經(jīng)有 4.0+ 版本甚至 5.0+ (但不太穩(wěn)定)且都是基于 Deep Learning 模塊的,但因?yàn)樘珣芯筒幌敫牧?#xff0c;,,
先交代一下實(shí)驗(yàn)環(huán)境:
os: Win10;Python 3.8;pyteeseract 0.3.8;Tesseract 3.05;pyteeseract 安裝
1,安裝 tesseract 工具
相對(duì)其它程序包,pyteeseract 的安裝步驟會(huì)相對(duì)繁瑣一點(diǎn),因?yàn)?pyteeseract 識(shí)別功能是基于 tesseract 開(kāi)源工具完成的,所以第一步 安裝 tesseract ,安裝包下載鏈接:
https://digi.bib.uni-mannheim.de/tesseract/
提供有 3.0+,4.0+及5.0+版本使用,下載完之后安裝(安裝方式就是傻瓜式安裝)
tesseract 安裝成功之后,需把存放 tesseract.exe 的文件路徑加入到環(huán)境變量中,如下圖我的 tesseract.exe 存放的文件夾就是 F:/Program Files/Tesseract-OCR 加入環(huán)境變量即可;
2,pip install pytesseract
在命令行中,用 pip 工具下載 pytesseract 包
pip install pyteeseract3,修改pytesseract.py 腳本
在 步驟 2 的基礎(chǔ)之上,找到 pytesseract 的安裝路徑,如果 Python 是通過(guò) Anaconda 安裝的話的話,安裝路徑一般都在 Anaconda/Lib/site-packages 文件夾下;找到之后找 pytesseract 文件夾下的 pytesseract.py 腳本文件,
找到之后,用記事本打開(kāi) pyresseract.py,通過(guò) ctrl +f 快速搜索功能定位 tesseract_cmd,修改后面的文件路徑信息(用上面提到的 tesseract.exe 安裝路徑進(jìn)行替換即可);
2, pytesseract 使用
程序包的用法也相對(duì)比較簡(jiǎn)單,幾行代碼就能搞定,下面代碼就是把一張圖片中的文字識(shí)別,并轉(zhuǎn)化為 字符串打印出來(lái),選擇識(shí)別語(yǔ)言 英語(yǔ)( 更改 lang = ‘eng' 參數(shù)即可)
import pytesseractimport cv2img_path = "G:/Coding/One_hundred_days/Data/orc_image2.jpg"# 下面一行代碼很重要tessdata_dir_config = '--tessdata-dir "F://Program Files//Tesseract-OCR//tessdata"'im = cv2.imread(img_path)img = cv2.cvtColor(im,cv2.COLOR_BGR2RGB)text = pytesseract.image_to_string(img,lang= 'eng',config= tessdata_dir_config,)print(text)效果預(yù)覽,識(shí)別前
識(shí)別后
pytesseract 支持將 OpenCV 和 PIL 讀取后的圖像作為輸入,但圖像格式需為 RGB 模式,因此 OpenCV 讀取之后還要加入一行代碼把圖像的 BGR 模式轉(zhuǎn)化為 RGB
另外需要注意一點(diǎn) ,上面實(shí)例中下面這一行代碼不能去掉(用于后面 image_to_string() 函數(shù)中的 config 參數(shù)的設(shè)置)
tessdata_dir_config = '--tessdata-dir "F://Program Files//Tesseract-OCR//tessdata"'否則會(huì)報(bào)下面的錯(cuò)誤,tessdata 文件路徑定位失敗 ,
Failed loading language 'eng' Tesseract couldn't load any languages! Could not initialize tesseract.')
tessdata 文件路徑存放的是語(yǔ)言包文件,是用于 識(shí)別圖像中不同語(yǔ)言,通過(guò)修改 lang 參數(shù)來(lái)進(jìn)行設(shè)定;但需要知道的是,tesseract 工具起初默認(rèn)語(yǔ)言為 eng(英文),若需要借助 tesseract 識(shí)別不同語(yǔ)種需要下載對(duì)應(yīng)的 語(yǔ)言包文件,安裝到 tessdata 文件夾下即可
例如上面案例中我用的是 英語(yǔ),這里我想識(shí)別圖片中的中文字符,就需要把中文語(yǔ)言包下載 到 testdata 中,各語(yǔ)言包的下載地址,https://github.com/tesseract-ocr/tessdata
再把代碼中 image_to_string() 中 lang 參數(shù)設(shè)為 chi_sim 即可
效果預(yù)覽,識(shí)別前
識(shí)別后,對(duì)于中文來(lái)說(shuō)識(shí)別效果并不是太好,猜測(cè)可是是版本的原因:
pyteeseract 其他用法
1,除了上面可以直接把圖像中內(nèi)容識(shí)別轉(zhuǎn)化為字符串之外,還可直接轉(zhuǎn)化 pdf 文件形式導(dǎo)出
# Get a searchable PDFpdf = pytesseract.image_to_pdf_or_hocr('test.png', extension='pdf')with open('test.pdf', 'w+b') as f: f.write(pdf) # pdf type is bytes by default
2,估計(jì)識(shí)別出來(lái)每個(gè)字符的邊框信息,圖片中的位置分辨率范圍:
print(pytesseract.image_to_boxes(img_path,lang = 'chi_sim',config= tessdata_dir_config))
3,關(guān)于 pyteeseract 還有很多用法還未介紹,有興趣的小伙伴可去官網(wǎng)介紹進(jìn)行了解,鏈接貼在下方:
https://pypi.org/project/pytesseract/
總結(jié)
以上是生活随笔為你收集整理的python怎么实现输入多行文字_介绍一个Python 包,几行代码可实现 OCR 文本识别!...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: db2 删除schema中所有表_常用S
- 下一篇: c# 基于layui的通用后台管理系统_