汉王ocr sdk android,汉王标准印刷体OCR SDK技术白皮书.doc
“漢王標準印刷體OCR SDK開發工具包”介紹
一、功能介紹
A 基礎功能模塊
1.輸入圖像格式:
可識別彩色(24BITS)、灰度(256階)和黑白二值圖像。支持TIFF、BMP、JPG、PDF格式的圖像文件,對于合并后PDF和TIF,我們可以提供技術解決方案。
2.輸入版面格式:
能自動分析出橫排文本、豎排文本、表格和圖像等區域,并對文本和表格區域的文字進行識別。
3.輸入字體格式:
可識別中文簡體、臺灣繁體、香港繁體、英文及中英混排、簡繁混排等印刷文本。
4.輸入字體:
可識別宋、仿宋、楷、黑、魏碑、隸書、行楷、幼圓等一百多種中文字體,識別字號介于“小六號”和“初號”。
5.輸出文本字符集
可輸出GB、GBK、BIG5、unicode碼結果文本。
6.標準印刷體漢字識別:可達到99.7%;
7.印刷體數字識別:
具有4個獨立的識別引擎,識別率可達到99.5%。
8.輸出識別結果
可輸出TXT、XLS、RTF、PDF、HTML等格式文本文件,RTF、PDF格式支持版面還原。
9.可獲取識別文字信息,包含字符在圖像中的坐標、字體、字號、可信度和候選字。
10.可獲取版面分析后,框的坐標以及框的屬性(橫豎排、圖像、文字、表格等屬性)。
11.開發環境
提供VC開發的DLL動態庫,支持C++、VC、VB、JAVA、.Net、Delphi等語言。
12.支持系統平臺
支持Windows平臺、個別支持Linux。
13.支持對內存中的圖像(比如用一個數組來表示)進行識別,并把結果也放在內存中。
14.表格識別: 自動判斷、識別各種通用型印刷體表格。電子表格還原準確精美,輸出的電子表格可隨意編輯。在國家級評比中榮獲第一名。
15.可以準確識別公文的題頭、正文、公章等區域,并將識別結果按原版面精確還原。
16.識別速度: 在PIV-2.0計算機上,印刷文稿識別速度達1000字/秒。
B 可選功能模塊
1.多國文字識別
支持日、韓、法、意、德、西班牙、瑞典、葡萄牙、丹麥、荷蘭、挪威等國文字的識別,標準印刷體字符識別率達到96%以上。
2.手寫體數字識別:
具有3個獨立的識別引擎,識別率達99%以上。
3.支持有規律的復雜表單、票據的識別。
二、應用方式
1.單機版(在服務器端應用):
此種模式的實現方式:
將“漢王標準印刷體OCR SDK開發工具包”裝載在服務器端,識別工作在服務器上進行;
通過客戶端和服務器端的交互,實現對客戶端圖像文件的識別,實現方式如下:
客戶端將需要識別的圖像上傳至服務器
服務器根據文件上傳時間對所需圖像進行排序并逐一識別
服務器將識別結果發回給相對應的客戶端
客戶端對識別結果加以利用
2.單機版(在客戶端應用):
如果用戶在B/S網絡環境下,希望利用“漢王標準印刷體OCR SDK開發工具包”單機版實現多臺客戶終端同時識別,可以采用如下方式(如圖例所示):
① 在需要進行識別的客戶端安裝識別程序,每個客戶端的識別程序配以加密狗共同使用;
② 在客戶端對需要識別的圖像文件進行識別;
將識別結果上傳至服務器端,實現網絡共享;
優點:
識別環節在各個客戶端進行,識別工作不受網絡容量的限制;
各客戶端的識別環節彼此分離,一個客戶端識別程序如果出錯不會影響到其他客戶端識別工作的進行;
降低服務器的工作負荷;
3.網絡版:
實現方式如上圖所示:
在B/S網絡環境下的每個客戶端裝載OCR識別程序;
在服務器端進行設置,用網絡加密狗對使用授權進行加密,并限定并發用戶數;
需要使用識別功能的客戶端發送請求至服務器,取得服務器驗證通過后在客戶端進行識別工作;
同時進行識別工作的客戶端總數應小于或等于網絡版限定的并發用戶數;
如n臺客戶端(n>網絡版限定的并發用戶數)都需要進行識別工作,則未得到服務器認證的客戶端處于等待狀態,待其他客戶端完成識別工作并退出識別程序后才能進行識別;
在網絡和服務器支持的情況下,“漢王標準印刷體OCR SDK開發工具包” 網絡版的并發數在理論上可無窮大。
三、漢王OCR SDK的特點
1、識別率高:特別是中文簡繁漢字的識別,一直以來都受到用戶的高度認可。
2、穩定性強:漢王OCR的市場占有率很高,在與大量用戶合作的過程中,我們不斷在改進和完善我們的產品,因此用戶可以放心的嵌入到自己的軟件產品中,真正實現產品的增值,最大可能的減少了最終使用者因為使用OCR不穩定而產生抱怨。
3、特殊處理的能力強:多年的服務經驗使我們的OCR技術能夠處理千變萬化的文檔資料。
4、對服務器的要求低:漢王OCR并不需要高配置的機器,對用戶的設備沒有太大的限制。
四、漢王的優勢
1、核心技術榮獲多項國家級榮譽,被國內超過80%的專業數據加工商用于其核心業務領域。
2、結合多年為軟件集成商服務的經驗,漢王OCR SDK始終
總結
以上是生活随笔為你收集整理的汉王ocr sdk android,汉王标准印刷体OCR SDK技术白皮书.doc的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 使用触发器对学生表操作进行日志记录
- 下一篇: 【机器学习】如何使用随机网格搜索,以缩短