當(dāng)前位置：首頁(yè) > 编程语言 > python >内容正文

python

教你3行Python代码，识别图片中的任意语言文字

發(fā)布時(shí)間：2023/12/20 python 22 豆豆

生活随笔收集整理的這篇文章主要介紹了教你3行Python代码，识别图片中的任意语言文字小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

大家好

今天給大家介紹一個(gè)超級(jí)簡(jiǎn)單且強(qiáng)大的OCR文本識(shí)別工具：easyocr.

這個(gè)模塊支持70多種語(yǔ)言的即用型OCR，包括中文，日文，韓文和泰文等。Python學(xué)習(xí)資料點(diǎn)擊免費(fèi)領(lǐng)取

下面是這個(gè)模塊的實(shí)戰(zhàn)教程。

1.準(zhǔn)備

pip?install?easyocr 復(fù)制代碼

它會(huì)安裝除了模型文件之外的所有依賴，模型文件則會(huì)在運(yùn)行代碼的時(shí)候下載。

對(duì)于Windows，如果在安裝 Torch 或 Torchvision 時(shí)報(bào)錯(cuò)了，請(qǐng)按照pytorch.org?的官方說(shuō)明安裝 Torch 和 Torchvision。

如果你想使用顯卡進(jìn)行計(jì)算，你需要搜索下載CUDA，并在Pytorch網(wǎng)站上，確保選擇正確的CUDA版本。如果僅打算在CPU模式下運(yùn)行，請(qǐng)選擇CUDA = None。

2.實(shí)戰(zhàn)教程

這個(gè)模塊用起來(lái)真的非常簡(jiǎn)單，三行代碼完事了：

import?easyocr reader = easyocr.Reader(['ch_sim','en']) result = reader.readtext('test.png') 復(fù)制代碼

運(yùn)行的過(guò)程中會(huì)安裝所需要的模型文件，像下面這樣：

不過(guò)它的下載速度非常慢，而且經(jīng)常會(huì)失敗，因此這里給出第二個(gè)解決方案：先下載好模型文件，再將其放置到所需要的位置：

文字檢測(cè)模型（CRAFT）（必須）

pythondict.com/go/?url=htt…

中文（簡(jiǎn)體）模型（識(shí)別中文必須）

pythondict.com/go/?url=htt…

中國(guó)（傳統(tǒng)）模型

pythondict.com/go/?url=htt…

拉丁模型

pythondict.com/go/?url=htt…

日本模型

pythondict.com/go/?url=htt…

韓文模型

pythondict.com/go/?url=htt…

泰文模型

pythondict.com/go/?url=htt…

阿拉伯文模型

pythondict.com/go/?url=htt…

下載完模型后，將文件放到下面這個(gè)位置。

Windows：C:\Users\用戶名.EasyOCR\model Linux：~/ .EasyOCR / model

如下圖所示：

重新執(zhí)行腳本不會(huì)再提醒下載模型了：

import?easyocr reader = easyocr.Reader(['ch_sim']) result = reader.readtext('test.png') print(result) 復(fù)制代碼

我隨便截了一個(gè)直播彈幕的圖片保存在腳本所在的文件夾下，命名為test.png：

?結(jié)果如下：

基本上所有應(yīng)該識(shí)別的文字都識(shí)別出來(lái)了，效果非常不錯(cuò)。

另外也可以看到，輸出采用列表格式，每個(gè)item分別表示對(duì)應(yīng)文字的邊界框，識(shí)別文本結(jié)果和置信度。

這個(gè)模塊還能識(shí)別多語(yǔ)種的情況：

我將這張圖片命名為test2.jpg，修改代碼中對(duì)應(yīng)的圖片名稱：

import?easyocr reader = easyocr.Reader(['ch_sim','en']) result = reader.readtext('test2.jpg') print(result) 復(fù)制代碼

效果如下：?

這張圖片很復(fù)雜，而且是中英文混雜在一起的情況，但是可以看到模型除了左上角的水印，圖片中的文字基本都是識(shí)別出來(lái)了，盡管有部分文字識(shí)別錯(cuò)誤，但還在可以接受的范圍之內(nèi)。

不過(guò)需要注意的是，雖然可以一次性識(shí)別許多種語(yǔ)言，但并非所有語(yǔ)言都可以一起用，通常是公共語(yǔ)言和一個(gè)特殊語(yǔ)種可以一起識(shí)別，相互兼容，比如英語(yǔ)和日語(yǔ)。

如果你的電腦沒(méi)有GPU或者顯存不足，可以加一個(gè)gpu=false的參數(shù)僅使用CPU運(yùn)行：

reader = easyocr.Reader(['ch_sim','en'], gpu =?False) 復(fù)制代碼

另外，這個(gè)模塊還支持直接使用命令行運(yùn)行，相當(dāng)方便，大家可以試試：

easyocr -l ch_sim en -f test.png --detail=1?--gpu=True 復(fù)制代碼

我們的文章到此就結(jié)束啦，如果你喜歡今天的Python 實(shí)戰(zhàn)教程，給文章點(diǎn)個(gè)贊吧👍。

總結(jié)

以上是生活随笔為你收集整理的教你3行Python代码，识别图片中的任意语言文字的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇： VScode开发PHP的必要插件
下一篇：数字信号处理的学习资源