华为LAB实验室7-文字识别
各位好,我是乾頤堂大堂子。領取完整實戰指南可以私信我,關鍵詞:實戰指南
0.1-實驗簡介
*文字識別(Optical Character Recognition,OCR)是指將圖片、掃描件或PDF、OFD文檔中的打印字符進行檢測識別成可編輯的文本格式。OCR以開放API(Application Programming Interface,應用程序編程接口)的方式提供給用戶,用戶通過實時訪問和調用API獲取推理結果,幫助用戶自動采集關鍵數據,打造智能化業務系統,提升業務效率。
*通用文字識別:提取圖片內的文字及其對應位置信息,并能夠根據文字在圖片中的位置進行結構化整理工作。
*通用表格識別:提取表格內的文字和所在行列位置信息,適應不同格式的表格。同時也識別表格外部的文字區域。用于各種單據和報表的電子化,恢復結構化信息。
*手寫文字:識別文檔中的手寫文字、印刷文字信息,并將識別的結構化結果以JSON格式返回給用戶。
*文字識別服務通常可以通過以下兩種方式進行調用,一種是調用華為云提供的SDK,另一種是調用相應服務的API接口。用戶首先需要在華為云“EI企業智能>人工智能>文字識別OCR”
*頁面開通相關服務(服務只需要開通一次即可,后面使用時無需再申請)。其次,利用API接口的開發者可以在華為云提供的API Explorer對不同服務的接口進行調測,同時API Explorer上提供有多種編程語言的SDK代碼示例可供開發者參考使用。
0.2-實驗目的
本實驗主要介紹了使用華為云文字識別服務,通過本實驗學員將了解如何利用華為云的文字識別服務進行通用文字識別、通用表格識別、手寫文字識別功能。目前華為云有提供基于Python語言的文字識別SDK,本實驗將指導學員理解和掌握如何使用Python進行通用文字識別、表格識別、手寫文字識別業務的開發方法和技巧。
1-開通文字識別服務、準備AK/SK、準備project_id、SDK安裝
參考第2小節實驗手冊“書本識別”步驟進行獲取
開通服務
開通文字識別服務:登錄文字識別管理控制臺(https://console.huaweicloud.com/ocr/?region=cn-north-4),依次選擇左側的“總覽”,“通用文字識別”、“通用表格識別”和“手寫文字識別”,分別在界面單擊“開通服務”。服務開通一次即可,后續使用時無需再開通。相關服務資費詳情請參考華為云價格計算器。
SDK安裝
2-實驗步驟
2.1-導入包
2.2-配置相關參數
2.3-執行通用文字識別任務
GeneralTextRequestBody函數body部分可以填入image、url、detect_direction等參數。
image:圖像數據,base64編碼,要求base64編碼后大小不超過10MB。圖片最小邊不小于15px,最長邊不超過4096px。支持JPEG、JPG、PNG、BMP、TIFF格式。
url:此項與image參數二選一,支持公網HTTP/HTTPS URL,華為云OBS的URL。
detect_direction:圖片朝向檢測開關,True為檢測圖片朝向,False為不檢測,默認值為False。
quick_mode:快速模式開關,針對單行文字圖片(要求圖片只包含一行文字,且文字區域占比超過50%),打開時可以更快返回識別結果。True為打開快速模式,False為關閉快速模式,默認值為False。
character_mode:單字符模式開關。True為打開單字符模式,False為關閉單字符模式,默認值為False,即不返回單個文本行的單字符信息。
輸出結果:
direction:圖片朝向。當detect_direction為false時,該字段為-1。當detect_direction為true時,該字段為圖片逆時針旋轉角度,值區間為0~359。
words_block_count:檢測到的文字塊數目。
words_block_list:識別文字塊列表。輸出順序從左到右,先上后下。
2.4-執行通用表格識別任務
GeneralTableRequestBody函數body部分可以填入image、url、return_text_location等參數。
image:圖像數據,base64編碼,要求圖片最小邊不小于15px,最長邊不超過8192px,支持JPEG、JPG、PNG、BMP、TIFF格式。
url:此項與image參數二選一,支持公網HTTP/HTTPS URL,華為云OBS的URL。
return_text_location:返回文本塊坐標及單元格坐標信息,True為返回文本塊坐標及單元格坐標信息,False為不返回,默認值為False。
return_confidence:返回置信度開關,True為返回置信度,False為不返回,默認值為False。return_excel:
返回表格轉換Microsoft Excel的base64編碼字段。True為返回'excel'字段,表示xlsx格式的表格識別結果的base64編碼,False為不返回,默認值為False。
輸出結果:
words_region_count:文字區域數目。
words_region_list:文字區域識別結果列表,輸出順序從左到右,先上后下。
excel:表格圖像轉換為excel的Base64編碼,圖像中的文字和表格按位置寫入excel。對返回的excel編碼可用base64.b64decode解碼并保存為.xlsx文件。
2.5-執行手寫文字識別服務
HandwritingRequestBody函數body部分可以填入image、url、quick_mode等參數。
image:圖像數據,base64編碼,要求base64編碼后大小不超過10MB。圖片最小邊不小于8px,最長邊不超過8192px,支持JPEG、JPG、PNG、BMP、TIFF格式。
url:此項與image參數二選一,支持公網HTTP/HTTPSURL,華為云OBS的URL。
quick_mode:快速模式開關,針對單行文字圖片(要求圖片只包含一行文字,且文字區域占比超過50%),打開時可以更快返回識別結果。True為打開快速模式,False為關閉快速模式,默認值為False。
detect_direction:圖片朝向檢測開關,True為檢測圖片朝向,False為不檢測,默認值為False。
char_set:字符集設置,用戶可以根據實際需要限定輸出字符集范圍。可選“digit”:數字模式,“letter”:大小寫字母模式,“digit_letter”:數字+字母模式,“general”:數字+字母+中文模式。
輸出結果:
words_block_count:檢測到的文字塊數目。words_block_list:識別文字塊列表。輸出順序從左到右,從上到下。
更多網工提升干貨,請關注公眾號:乾頤堂網絡實驗室
總結
以上是生活随笔為你收集整理的华为LAB实验室7-文字识别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: oracle11g安装完成如何打开界面
- 下一篇: Keras深度学习实战(25)——使用s