【CIPS 2016】(17章)文字识别 (研究进展、现状趋势)
CIPS 2016 筆記整理
《中文信息處理發展報告(2016)》是中國中文信息學會召集專家對本領域學科方向和前沿技術的一次梳理,官方定位是深度科普,旨在向政府、企業、媒體等對中文 信息處理感興趣的人士簡要介紹相關領域的基本概念和應用方向,向高校、科研院所和 高技術企業中從事相關工作的專業人士介紹相關領域的前沿技術和發展趨勢。
本專欄主要是針對《中文信息處理發展報告(2016)》做的筆記知識整理,方便日后查看。
注意:本筆記不涉及任何代碼以及原理分析研究探討,主要是對NLP的研究進展、現狀以及發展趨勢有一個清晰的了解,方便以后更加深入的研究。
ps:我已將思維導圖以及Markdown版本、pdf版本上傳到我的GitHub中,有需要的可以自行查看:
https://github.com/changliang5811/CIPS-2016.git
傳送門:
CIPS 2016(1-3章)——詞法、句法、語義、語篇分析
CIPS 2016(4-5章)——語言認知模型、語言表示以及深度學習
CIPS 2016(6-7章)——知識圖譜、文本分類與聚類
CIPS 2016(8-10章)——信息抽取、情感分析&自動文摘
CIPS 2016(11-12章)——信息檢索、信息推薦與過濾
CIPS 2016(13-14章)——自動問答、機器翻譯
CIPS 2016(15章)——社會媒體處理
CIPS 2016(16章)——語音技術
文章目錄
- CIPS 2016 筆記整理
- 前言
- Chapter 17 文字識別
- 什么是文字識別?
- 文字識別的方式按照文檔的媒體形式分為兩大類
- 關鍵科學問題
- 研究內容
- 流程1:文檔圖像預處理
- 流程2:版面分析
- 流程3:文本行識別(核心)
- 流程4:后處理和應用
- 主要方法&現狀
- 文檔圖像預處理和版面分析
- 自然場景文本檢測與識別
- 手寫文本行識別
- 文檔檢索
- 最新應用走勢
- 未來展望
- 文字識別的認知機理和受認知啟發的文字識別方法
- 文檔識別模型的小樣本學習與自適應
- 文檔分析與識別的結構化學習與優化模型
- 應用需求
- 總結
- 彩蛋
前言
文字識別(Character Recognition),廣義地稱為文檔分析(Document Analysis),是對文檔圖像中的文字進行分割、識別,將文檔從圖像轉換為電子文本的技術。具體內容包括文檔圖像預處理、版面分析、字符切分、字符識別、文本行識別等。文字識別技術是中文信息處理中非常重要的一環,因為大量的文檔以紙張(如書籍、報紙、檔案、票據)形式存在,而年代較早的紙張文檔都沒有對應的電子文件,只有通過文字識別轉換成電子文本后才能對其內容進行語義分析。
文字識別應用在上世紀 90 年代中期達到一個高潮。當時模式識別方法和技術逐漸成熟,個人計算機和掃描儀迅速普及,為文字識別技術推廣應用提供了良好條件。最近五年,隨著數碼相機和智能手機的普及使隨時隨地拍照識別成為可能,加上技術的進一步發展,文字識別迎來了一個新的應用高潮,不斷產生新的應用模式和技術需求。
Chapter 17 文字識別
(研究進展、現狀&趨勢)
什么是文字識別?
文字識別(Character Recognition),廣義地稱為文檔分析(Document Analysis),是對文檔圖像中的文字進行分割、識別,將文檔從圖像轉換為電子文本的技術。
具體內容包括文檔圖像預處理、版面分析、字符切分、字符識別、文本行識別(核心問題,難點)等。
文本行是文檔圖像的基本和相對容易分割的單元,因此文本行識別是最核心、也最難的問題,因為字符切分和字符識別不能分開,而且同時要考慮上下文信息(語言模型和幾何上下文)
文字識別的方式按照文檔的媒體形式分為兩大類
- 脫機((offline))文字識別:對已經存在于紙張或物體表面(如建筑物標牌、交通標志)的文字進行提取和識別,處理對象是通過掃描或拍照得到的文檔圖像。根據文字的書體又分為印刷體文字識別和手寫體文字識別
- 聯機(online)文字識別:對書寫過程中采集到的筆劃軌跡(如觸屏書寫、手寫板書寫、數碼筆書寫)進行文字提取和識別
關鍵科學問題
- 難點1:字符切分和識別的復雜性。文本行圖像中由于字符間粘連、有些字符多部首、多語種混合,加上手寫體的字符變形、大小和間隔不均勻等因素,字符在被識別之前很難準確分開
- 難點2:文檔版面分析的復雜性。圖像背景復雜,文本段落排版的多樣性,文本行方向多樣性(水平、垂直、傾斜,甚至有彎曲),圖文混合(包括文本、圖形、表格、公式、特殊符號等)。
研究內容
流程1:文檔圖像預處理
- 研究內容:比如通過圖像增強、復原等手段來改善圖像的對比度和校正變形
流程2:版面分析
- 研究內容:自然場景圖像中文本檢測與定位;準確分割文本段落和文本行,區別和分割文本與圖形、公式、表格、符號等,從而方便后續的文本行識別和公式、符號識別
流程3:文本行識別(核心)
- 對文本行圖像進行字符切分和識別,得到對應的電子文本(字符串)。
- 研究內容:字符識別器設計(包括特征提取、分類器設計和學習),字符過切分,幾何上下文建模,語言上下文建模,上下文融合模型,文本行序列表示和整體識別模型等
流程4:后處理和應用
- 后處理的目的:目的:一是根據文檔中不同元素(文本、圖形、符號)的幾何關系和語義關系對識別結果進行消歧和糾錯,二是結合識別結果和幾何關系對文檔進行重構得到結構化電子文檔(如 PDF)
- 應用:除了語義分析和信息提取,文檔檢索是一個比較普遍可行的應用,因為檢索不需要文字識別精度很高
主要方法&現狀
文檔圖像預處理和版面分析
-
存在問題1:背景噪聲
- 歷史文檔因紙張陳舊、污損等原因,即使是掃描的圖像也呈現嚴重的背景噪聲。因此如何將文本與背景分開成為一個重要的研究問題。
- 解決辦法:基于局部對比度、梯度和邊緣信息的自適應二值化方法;基于圖模型(如馬爾科夫隨機場、條件隨機場)結合像素分類和空間上下文的方法
-
存在問題2:圖像校正
- 拍照文檔的幾何校正和光照矯正(光照不均、幾何變形)
- 采用立體視覺模型和幾何分析模型
-
版面分析
-
版面分析將文檔圖像分割為文本段落、圖形、表格等區域
-
基于前景的方法
- 將像素或連通部件進行逐級聚合,得到分本行和段落,并且對連通部件或區域進行分類判斷是文本或圖形
- 文檔譜(Docstrum)方法、基于塊鄰接(Block Adjacency Graph, BAG)的方法,基于最小張成樹(Minimal Spanning Tree, MST)的聚類的方法、基于 Hough 變換的方法、基于紋理分割的方法等
-
基于背景的方法
- 對文檔圖像進行自上而下的劃分,如通過投影找到欄、段落、文本行之間的空白
- 遞歸水平-垂直切割(Recursive X-Y Cut)、Voronoi Diagram方法、背景矩形(White Space)分析等
-
自然場景文本檢測與識別
-
文本檢測
-
基于紋理(區域分類)
- 對圖像進行多尺度滑動窗分析,判斷每個窗口的紋理是否為文本,在此基礎上對圖像進行分割
-
基于連通部件
- 先通過圖像區域分割或邊緣分析提取連通部件,然后通過幾何分析或分類器判斷每個連通部件為文本或非文本,最后將文本連通部件聚合為文本行
- 主流方法:用最大穩定極值區域(MSER)方法提取候選連通部件,對連通部件進行過濾、聚合得到文本行
-
-
文本識別
- 在文本檢測定位并得到二值圖像的基礎上用集成字符切分、分類器和上下文的文本行識別傳統方法進行識別
- 把文本檢測和識別同時進行,即用字符識別器進行文本檢測,稱為 End-to-End 方法
- 在文本定位基礎上,不用二值化直接對彩色圖像進行字符切分和識別(結合上下文)的方法也取得了優良的性能,尤其是采用深度神經網絡的方法
手寫文本行識別
- 手寫文本行圖像中字符難以在識別之前被準確切分,因此字符切分和識別需要同時進行,或者對文本行圖像整體進行識別。
- 基于過切分(盡可能將不同字符分開,每個片段為字符或字符的一部分)和候選切分-識別路徑評價搜索的方法。
- 在上述框架下,基于貝葉斯決策的上下文融合方法和基于半馬爾科夫條件隨機場的方法都取得了較高的字符切分和識別正確率。除了融合方法,字符分類器的精度、幾何上下文和語言上下文的表示對文本行識別性能有決定性影響。
- 深度卷積神經網絡(CNN)把手寫漢字識別的精度提升了一大步。它可作為分類器集成在文本行識別系統中,提高文本行識別性能。
文檔檢索
-
從文檔數據庫中查找與用戶關心的主題或關鍵詞匹配的文檔圖像或區域
-
基于文字識別的檢索
- 依賴文字識別的精度,在識別精度較低的情況下檢索性能會明顯下降
-
文字識別無關的檢索
-
大部分工作是對用戶查詢的關鍵詞進行檢索
-
關鍵詞檢索方法
-
基于圖像查詢的方法(Query-by-Example)
-
基于文本查詢的方法(Query-by-Keyboard)
一般需要有字符或詞的形狀模型,用不同字體和書寫風格的樣本訓練后具有較好的形變適應能力,而且用鍵盤輸入文本查詢的方式在使用上更方便。
-
-
-
發展:把詞圖像和文本嵌入共同特征空間的方法,可同時用于詞識別和關鍵詞檢索
最新應用走勢
- 聯機手寫圖文混合文檔分析
- 歷史文檔的識別與檢索
- 智能手機和移動互聯帶來的拍照文檔識別和網絡文檔圖像識別
未來展望
文字識別的認知機理和受認知啟發的文字識別方法
- 目前的自動檢測和識別性能跟人相比有較大差距。因此,需要從人的感知和認知機理得到啟發設計新的處理方法
文檔識別模型的小樣本學習與自適應
文檔分析與識別的結構化學習與優化模型
- 文檔中的各種元素(文本、圖像、表格、符號等)相互關聯,需要用一個結構化模型來表示他們之間的相互關系,充分利用幾何上下文關系和語言上下文關系來提高各個元素識別的準確性
應用需求
- 圖文混合、印刷和手寫混合的文檔識別與結構理解
- 網絡文檔圖像識別與檢索
- 多語言文檔分析與識別
- 歷史文檔(古籍)的識別與檢索
總結
近幾年,文字識別技術得到了快速發展。這得益于兩方面的因素。一方面,互聯網和移動通信、便攜式成像設備的推廣應用帶來了很多新的文字識別應用需求。另一方面,模式識別、機器學習、計算機視覺等領域理論方法的發展給文字識別技術研發產生了很多啟發和促進。
由上可知,文字識別依舊存在很多待解決的問題。文字識別技術既有大量的應用需求,又有一系列的理論和技術難題,需要投入大量的研發力量,進一步推動學術研究和應用的發展。
彩蛋
The last blog about CIPS(完結篇):信息處理,包括多模態信息處理(Chapter 18)、醫療健康信息處理(Chapter 19)、少數民族語言文字信息處理(Chapter 20)。
總結
以上是生活随笔為你收集整理的【CIPS 2016】(17章)文字识别 (研究进展、现状趋势)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python快速实现简单的图像人脸融合
- 下一篇: 关于类的静态的模板函数的使用方式