通用文档信息提取模型浅析
您好,我是碼農飛哥,感謝您閱讀本文,歡迎一鍵三連哦。
💪🏻 1. Python基礎專欄,基礎知識一網打盡,9.9元買不了吃虧,買不了上當。 Python從入門到精通
?? 2.網上優質的Python題庫很少,這里給大家推薦一款非常棒的Python題庫,從入門到大廠面試題👉點擊跳轉刷題網站進行注冊學習
?? 3. Python爬蟲專欄,系統性的學習爬蟲的知識點。9.9元買不了吃虧,買不了上當 。python爬蟲入門進階
?? 4. Ceph實戰,從原理到實戰應有盡有。 Ceph實戰
?? 5. Java高并發編程入門,打卡學習Java高并發。 Java高并發編程入門
😁 6. 社區逛一逛,周周有福利,周周有驚喜。碼農飛哥社區,飛躍計劃
文章目錄
- 1. 前言與痛點
- 2. 通用信息提取模型技術分析
- 1. 技術介紹
- 2. 原理分析
- 1. Layout Detection(視覺檢測模塊):
- 2. OCR(文字識別模塊):
- 3. NLP(語義協調模塊):
- 4. GNN(信息提取模塊):
- 3. 技術效果
- 3.1. 通用文字識別
- 3.2. 通用表格信息提取
- 3.3. 印章檢測
- 3.4. 營業執照檢測
- 3.5. 辦公文檔識別
- 4. 總結
1. 前言與痛點
我們在工作生活中經常需要提取圖片中的文字,比如小伙伴給你發了一張發票,你需要將發票中的文字信息錄入到系統中,傳統的方式都是照著圖片中的文字手動錄入,這種方式低效又容易出錯,想必財務小伙伴對此深有體會。
那么有沒有一種高效、便捷、快速識別提取圖片中文字的方式呢?答案當然是有的。OCR就是專門用來識別提取文檔圖像中文字的技術。類似于人通過眼睛的視覺方式來接收外界信息一樣,OCR技術就相當于是計算機(AI技術)的眼睛,它可以通過視覺感知技術識別并提取文檔圖像中的文字。然而目前復雜文檔圖像的識別問題似乎已經成為 AI 技術落地中的瓶頸,文檔圖像作為一種非結構化數據,其分析識別面臨一些技術難點:
文檔圖像版式多種多樣,文本行方向,形狀,字體風格和顏色各不相同,這就要求圖像識別技術能夠適應各種不同的文檔圖像版式。
自然場景下圖像的背景也是非常復雜,有的圖像因為光照或者拍照角度的原因,導致OCR難以準確定位提取圖片中的文字。
有的文檔嚴重變形,文檔質量退化非常嚴重,如下圖產生了極大的摩爾紋,為圖像識別帶來了極大的困難。
身份證、護照、行駛證、駕駛證、港澳通信證等證照類別,及增值稅發票、普通發票、小票、合同等文檔被篡改后無法檢測出是否真實,PS智能檢測在反欺詐、合規風控等領域意義重大。如下圖證件修改過字和有效期數字,這為識別帶來了新的困難。
雖然,目前市面上有很多OCR技術方案,但是沒有任何一款產品可以可以同時實現在多場景、多任務類型、多語言環境下高效穩定地處理。有些產品專注于文檔處理和轉換;有些產品可以很方便地對屏幕文本截圖識別,但卻無法處理手寫文本;有些產品面面俱到卻效果不佳。一次偶然的機會,我通過CSDN平臺了解并體驗了一款讓我驚艷的智能文檔處理和OCR識別的產品平臺。合合信息:它的官網號稱為“掃描全能王”、“名片全能王”提供文字識別引擎。
合合信息為文檔結構化理解的痛點提供了一系列的新技術。合合信息實現了通用NLP抽取, 它基于自研NLP信息抽取技術,無需配置與訓練,可對單頁/多頁、任意版式文檔,智能分析與提取客戶自定義關鍵信息。 推薦使用場景:各種證件、票據、非標文檔以及合同/標書/保單/網頁截圖等各類電子文檔。
2. 通用信息提取模型技術分析
1. 技術介紹
當提取文檔信息并歸納這些信息的時候,首先需要獲取版面元素,這些元素包括文本、印章、頁眉、頁腳、表格、水印、二維碼、條形碼、公式、Logo等等。接著對提取的版面元素進行信息識別,最后對信息進行蒸餾得到關鍵信息并結構化,這個過程稱為信息抽取(Information Extraction, IE)。上述步驟可以使用合合信息提出的通用信息提取框架中的技術來逐步完成。合合信息提出Layout Detection+OCR+NLP+GNN的端到端文檔信息提取及結構化理解框架,有效的解決了行業相關痛點,利用通用信息提取技術使得文檔智能成為可能。如下圖所示:
2. 原理分析
如上圖所示:整個框架的模塊表現為端到端的輸入與輸出,不同模塊間相互傳遞監督信號,有效的提高了模型的整體預測效果。合合通用文檔信息提取框架通過將文檔類別與信息元素之間解耦,能夠推理學習空間位置語義并準確捕捉跨模態文檔信息,輕松應對各類復雜文檔。有效的提高了框架對于不同類別文檔識別的通用性與準確性。并將文檔智能推向了更高層面的工業應用。
下面為各個模塊的進行詳細介紹。
1. Layout Detection(視覺檢測模塊):
文檔版面元素是文檔理解的基礎,合合信息提出Layout Engine作為框架的視覺檢測模塊,首先檢測出文檔中的各個元素,包括文本、印章、頁眉、頁腳、表格、水印、二維碼、條形碼、公式、Logo等。該模塊通過下采樣、上采樣以及attention模塊獲取圖像多尺度、空間以及通道相關的特征。最后采用point-wise的方式獲取文檔元素的heatmap區域,可以有效的提取各種形狀以及各類信息的元素區域。
2. OCR(文字識別模塊):
提取出文檔各個部分的元素之后,采用OCR模塊進行元素中信息識別。該模塊對提取出的文檔元素圖像進行編碼,再通過attention模塊加強圖像內部信息的聯系,最后通過解碼器得到文檔元素的信息識別。
3. NLP(語義協調模塊):
利用語義模型對OCR識別出的信息進行語義合理性推理,從而調整信息內容,提高信息識別的準確率。合合信息基于自研NLP信息抽取技術,無需配置與訓練,可對單頁/多頁、任意版式文檔,智能分析與提取客戶自定義關鍵信息。推薦使用場景:各種證件、票據、非標文檔以及合同/標書/保單/網頁截圖等各類電子文檔。
4. GNN(信息提取模塊):
信息抽取(Information Extraction, IE)是從自然語言文本中抽取實體、屬性、關系及事件等事實類信息的文本處理技術,是信息檢索、智能問答、智能對話等人工智能應用的重要基礎。
很多學習任務都需要處理圖數據,這些數據包含了元素之間豐富的關系信息。 建模物理系統,學習分子指紋,預測蛋白質界面,以及疾病分類都需要模型從圖形輸入中學習。在文本、圖像等非結構化數據學習等領域,對提取出的句子依賴樹、圖像場景圖等結構進行推理是一個重要的研究課題,也需要圖形推理模型。
圖神經網絡(GNN)是一種連接主義模型,它通過在圖的節點之間傳遞消息來獲取圖的依賴性。與標準神經網絡不同的是,圖神經網絡保留了一種狀態,這種狀態可以用任意深度表示鄰居的信息。
文檔版面元素之間正是包含了豐富的關系信息,因此自然的聯想到使用GNN網絡對版面元素進行建模。該模塊利用文本+圖像(文檔元素ROI)多模態信息輸入到GNN(圖神經網絡模型),圖像信息編碼作為GNN的邊,即元素間的關系;文本信息編碼作為GNN的節點,即元素信息。最后通過MLP(多層感知機)對元素進行信息類別的判定以及元素間相關性評估。最終完成對文檔的信息抽取并結構化輸出。
3. 技術效果
合合信息自研NLP通用信息提取框架在如下領域都取得了非常良好的效果。
3.1. 通用文字識別
合合信息通過領先的深度學習技術,對各種表格,圖片,文檔、證件、面單等多種通用場景進行快速、精準的檢測和識別,支持簡體中文/繁體中文/英文/數字/西歐主流語言/東歐主流語言等共52種語言,同時支持印刷體、手寫體、傾斜、折疊、旋轉等。
如下圖所示是各種不同語言的【你好】,這些字體大小不同,排版不同(有的傾斜,有的橫排,有的豎排),語言不同。但是合合信息的通用文字識別功能可以非常輕松將圖片中所有的文字信息識別出來。識別結果如下圖所示:
3.2. 通用表格信息提取
合合信息的通用表格識別功能支持識別圖片/PDF格式文檔中的表格內容,包括有線表格、無線表格、合并單元格表格,同時支持單張圖片內的多個表格內容識別,返回各表格的表頭表尾內容、單元格文字內容及其行列位置信息。如下圖是一個普通的表單圖片:
最終的識別結果如下圖所示:
3.3. 印章檢測
合合信息印章檢測功能可以識別并提取圖像中的印章,以及辨認印章的所屬單位支持檢測并識別多行業合同文件和票據中的印章,結構化返回票據等樣本上單個/多個印章上文字,支持紅章/黑章,常規印章(圓章/方章等),可控制印章切圖外擴留白范圍。
3.4. 營業執照檢測
合合信息支持檢測并識別多行業合同文件和票據中的印章,結構化返回票據等樣本上單個/多個印章上文字,支持紅章/黑章,常規印章(圓章/方章等),可控制印章切圖外擴留白范圍。可識別營業執照上的文字信息,包括社會信用代碼、注冊號、企業名稱、企業類型、企業法人、注冊資本、經營范圍等字段。
3.5. 辦公文檔識別
合合信息可對辦公文檔的圖片版面進行分析,輸出圖、表、列表、文本、水印、頁眉頁腳、印章、公式的位置及文字,并輸出分版塊內容的OCR識別結果,支持52種語言,手寫、印刷體混排多種場景。識別效果如下圖所示:
4. 總結
文檔智能化分析確實存在很多問題,導致了產品落地困難,只有解決或改善相關問題,才能有效并高效地進行工業化應用。合合信息致力于解決所遇到的問題,通過深耕問題產生的背后原因,最終完成自研通用信息提取框架,覆蓋文字、文檔、表格、印章、二維碼、公式等多種通用場景,提供全球50+主流語言的印刷體、手寫體的高精度識別能力。可用于紙質文檔電子化、辦公文檔/報表識別、教育類文本識別、快遞面單識別。
合合信息專注于智能文字識別、圖像處理、自然語言處理(NLP)、知識圖譜、大數據挖掘等技術。基于自主研發的領先的智能文字識別及商業大數據核心技術,為全球 C 端用戶和多元行業 B 端客戶提供數字化、智能化的產品及服務。
合合信息 C 端產品方面的落地非常成熟,掃描全能王(智能掃描及文字識別 APP)、名片全能王(智能名片及人脈管理 APP)、啟信寶(企業商業信息查詢 APP)這些耳熟能詳的產品覆蓋了全球百余個國家和地區的億級用戶。
總結
以上是生活随笔為你收集整理的通用文档信息提取模型浅析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 计算机专业电路基础高考试卷,计算机专业电
- 下一篇: 速达软件登录远程客户端总提示检查卡号密码