tesseract3.01的训练和使用
相關源碼、資源下載:http://code.google.com/p/tesseract-ocr/downloads/list
?
訓練步驟:
1、? Generate Training Images:生成tif圖像文件(簡單的幾個漢字);
如:ABC.Roman.exp0.tif([lang].[fontname].exp[num].tif)
2、? Make Box Files:由上tif圖像文件生成box文件;由tesseract.exe生成box文件;打開生成的box文件,修改其中不正確的部分;
配置文件參數:"batch.nochop", "makebox"
運行文件:tesseractmain.cpp
如:ABC.Roman.exp0.box
3、? Run Tesseract for Training:
配置文件參數:"nobatch", "box.train"或"nobatch", "box.train.stderr"
運行文件:tesseractmain.cpp
生成的文件包括:ABC.Roman.exp0.tr 、ABC.Roman.exp0.txt
4、? Compute the Character Set:
運行文件:unicharset_extractor.cpp
生成的文件:unicharset
5、? font_properties:
需要自己創建一個txt文件,如font_properties.txt
運行文件:mftraining.cpp
生成的文件:inttemp、Microfeat、pffmtable、ABC.unicharset
6、? Clustering:
運行文件:mftraining.cpp(類似5)
運行文件:cntraining.cpp
生成的文件:normproto
7、? Dictionary Data:
需要自己創建5個txt文件,如:frequent_words_list.txt、words_list.txt、punc_list.txt、number_list.txt、user_words_list.txt
運行文件:wordlist2dawg.cpp
生成的文件:ABC.freq-dawg、ABC.word-dawg、(ABC.punc-dawg、ABC.number-dawg、ABC.user-words)
8、? The last file:
需要自己手動創建一個unicharambigs文件
9、? Putting it all together:
將normproto, Microfeat, inttemp, pffmtable四個文件重命名以ABC.為前綴,分別改為ABC.normproto, ABC.Microfeat, ABC.inttemp, ABC.pffmtable
運行文件:combine_tessdata.cpp
生成的文件:ABC.traineddata
?
以上的所有.cpp文件均可以根據自己的實際要求進行相應的修改。
?
使用:
將生成的ABC.traineddata文件拷貝到tessdata目錄下,然后調用tesseractmain.cpp文件執行即可。
?
參考文獻:
1、? http://code.google.com/p/tesseract-ocr/wiki/TrainingTesseract3
2、? http://www.docin.com/p-216160535.html
3、? http://blog.wudilabs.org/entry/f25efc5f/
4、? http://blog.csdn.net/dyfleoo/article/details/6959591
5、? http://blog.csdn.net/fengbingchun/article/details/6920667
6、http://code.google.com/p/tesseract-ocr/wiki/ReadMe?
總結
以上是生活随笔為你收集整理的tesseract3.01的训练和使用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C++中Ansi、Unicode、UTF
- 下一篇: Log4cplus1.04的使用