jTessBoxEditor for Tesseract OCR
jTessBoxEditor下載地址
http://vietocr.sourceforge.net/training.html
以下翻譯自安裝(解壓)后的Readme文件?
jTessBoxEditor
簡介
jTessBoxEditor是一個Tesseract OCR的Box編輯器,提供Tesseract 2.0x and 3.0x 格式的Box數據編輯功能??梢宰x取包括multi-page TIFF在內的通用圖片格式。
系統需求
Java Runtime Environment 6.0?or later.
說明
雙擊JAR文件啟動程序,或者通過如下的命令行方式,Windows下有run.bat批處理文件,可以通過修改啟動參數,增加分配給java虛擬機的內存
java -Xms128m -Xmx512m -jar jTessBoxEditor.jar
需要把TIFF/Box文件作為這個程序的輸入。
格式要求:
訓練用的圖片:300DPI, 1 bpp(bit per pixel), 黑白或8位灰度, 無壓縮的TIFF格式
Box文件:UTF-8編碼, 通過Tesseract命令行+相應的命令行選項生成(參考?Tesseract Wiki)。
訓練操作可以通過附帶的train.ps1?Windows PowerShell腳本自動化。
注意:Box文件使用的坐標系統把左下作為(0,0),而計算機圖形設備上把左上定義為(0,0)。 jTessBoxEditor使用并顯示參考圖形設備坐標。編輯的Box文件仍然在讀寫時參考自己的坐標。
這個軟件中包含一個轉換功能,會把字符文本字段的數字字符引用(NCR)和轉義序列轉換為Unicode字符。
Merge TIFF功能,可以把含有相同的字體的文本多個圖像保存到一個單一的多頁TIFF文件中,用于后續訓練。
Generate TIFF/Box功能由一個輸入的UTF-8文本文件生成供Tesseract訓練用的一對TIFF/Box文件。生成的圖像是一個二進制或者灰度的無壓縮多頁300DPI的TIFF圖像,依賴抗鋸齒模式是否有效(?)。
為了消除box邊界重疊問題,字符追蹤或字符間距可以通過Tracking微調器來進行調整。
注意,某些框的坐標可能會與由TESSERACT自己生成的略有不同(偏差1或2個像素)。但是,所生成的Box文件可以用如WinMerge的支持Unicode的文本比較工具進行比較驗證。
提示:實驗表明,Generate TIFF/Box功能使用字體大小24pt或更大生成的圖像會有較高的訓練質量。
結合符號或變音符號(如梵文或印度語 ),需要與主、基本字符結合使用,可以由用戶指定一個UTF-8的文本文件,例如data目錄下的 combiningsymbols.txt文件。此文件可以被Generate TIFF/Box功能讀取,這種設置使用戶可以為他們的語言腳本靈活定義結合符號/變音符號。
-- end --
?
轉載于:https://www.cnblogs.com/rakuhin/p/3307342.html
總結
以上是生活随笔為你收集整理的jTessBoxEditor for Tesseract OCR的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: (转)Javascript 面向对象编程
- 下一篇: windows socket----se