php 点对点,浅析点对点(End-to-End)的场景文字识别
一、背景
隨著智能手機的廣泛普及和移動互聯網的迅速發展,通過手機等移動終端的攝像頭獲取、檢索和分享資訊已經逐步成為一種生活方式。基于攝像頭的(Camera-based)的應用更加強調對拍攝場景的理解。通常,在文字和其他物體并存的場景,用戶往往首先更關注場景中的文字信息,因而如何能夠正確識別場景中的文字,對用戶拍攝意圖會有更深入的理解。一般意義上,基于圖像的文字識別包括基于掃描文字的光學字符識別(Optical Character Recognition, OCR) 和廣泛用于網站注冊驗證的CAPTCHA (Completely Automated Public Turing Test to Tell Computers and Humans Apart,全自動區分計算機和人類的圖靈測試)。相比較而言,基于掃描儀的OCR最簡單,CAPTCHA最難,場景文字識別則介于這兩者之間,如圖1所示[1]。
圖1基于圖像的文字識別
場景文字與掃描文字的最大區別在于其背景往往比較復雜,而且對設備(如移動設備或計算機)來說,文字位置是不確定的。其次,光照對文字的影響也是非常大的。最后相比傳統OCR處理的情況,很多場景文字更加多樣化,具有較大的內類變化。
二、兩種識別方案
一種自然而然的想法,是首先檢測并定位到文字區域(文字檢測),然后再將檢測到的文字塊送到現有的OCR中進行識別(文字識別),但是上述場景文字存在的難題均對這種方案形成了挑戰。從本質上講,這種方案將文字檢測和識別完全割裂開,嚴重依賴文字檢測和分割性能。
近年來,一種截然不同的點對點文字定位和識別系統逐漸開始引起學術界和工業界的關注。該系統從物體識別角度出發,同時進行文字檢測和識別,在場景文字識別中取得了較好的效果。本文就以英文識別為例,簡要介紹一下點對點的文字檢測與識別系統。
三、點對點場景文字識別系統
通常點對點系統通常包括:a)字符檢測;b)同時單詞檢測和識別。
1.字符檢測
字符識別主要是判斷某個圖像塊(p_w_picpath patch)是否是字符。圖像塊的選取既可以用滑動窗口(Sliding Window)進行多尺度掃描,也可以通過連通域分析(Connected Component Analysis, CCA)得到。基于滑動窗口的方法,最經典的應用來自于人臉檢測,但其最大的問題在于:一方面會產生很多的候選區域,另一方面容易產生字符間和字符內的混淆。如圖2所示[2]。在兩個O之間的滑動窗口容易被誤認成為X,而框了一半的B容易被誤認為E.
圖2字符間和字符內混淆
而基于CCA的方法雖然復雜度較低,但很容易受到背景的干擾,且對模糊圖像無能為力。如文獻[3]就采用基于極性區域的連通域來形成文字候選區。
通常對圖像塊的特征描述往往采用的Histograms of Oriented Gradients (HOG) ,分類器可以使用支持向量機(Support? Vector Machine, SVM),近鄰(Nearest Neighbor, NN), Adaboost等。
2.單詞同時檢測和識別
由于字符檢測一般利用的是bottom-up的信息,故而檢測得到字符候選區域包含一定的false positive。為此,單詞同時檢測和識別模塊,往往需要借助top-down信息(如詞典信息)[2,3,4]。
在文獻[2],針對字符檢測結果,采用了條件隨機場(Conditional Random Field, CRF)來模擬字符識別的置信度,字符間的關系(位置和語義上)。CRF的能量函數定義如下式所示。
其中第一項表達了單個候選區的置信度,而第二項則描述了兩個候選區之間的關系,包括了幾何位置上的重疊關系和在詞典(Lexicon)中兩個字母出現的概率情況。
圖3 單詞同時檢測和識別
通過CRF,圖3中的單詞就可以準確地被識別成door,而非doxr。除了CRF,Wang等[4]還借用了Pictorial Structures等來完成單詞的檢測和識別。
四、方案效果對比
為了對比第二節中兩種方案,表1給出了上述提及的三種點對點系統和傳統OCR系統(商用軟件ABBYY, www.abbyy.com)識別效果對比。使用的兩個數據集為街景文字文字數據庫(Street View Text)[1]和ICDAR數據庫(http://algoval.essex.ac.uk/icdar/RobustWord.html),如圖4所示。
圖4 SVT(左)和ICDAR(右)數據庫樣例
顯然,點對點的系統均優于傳統OCR的識別。
五、一點思考
目前點對點的系統大部分還是針對英文的識別,主要是因為英文的類別相對來說還是比較小的(62類,26個大小寫英文字母和10個數字),而對于類別數目較大的中文一直是我們思考的問題。
參考文獻
[1].???? ?K. Wang and S. Belongie. Word spotting in the wild. In Proc. ECCV, 2010.
[2].??? ?A. Mishra and K. Alahari. Top-Down and Bottom-Up Cues for Scene Text Recognition. In Proc. CVPR, 2012.
[3].??? ?L. Neumann and J. Matas. Real-Time Scene Location and Recognition. In Proc. CVPR, 2012.
[4].??? ?K. Wang, B. Babenko, and S. Belongie.? End-to-end scene text recognition. In Proc. ICCV, 2011.
By Errui Ding
總結
以上是生活随笔為你收集整理的php 点对点,浅析点对点(End-to-End)的场景文字识别的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 织梦php远程连接数据库,用PHP连接O
- 下一篇: php 物理路径,网站物理路径查找思路