(OCR论文)Mask TextSpotter V3机翻
《Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting》,ECCV 2020,華科白翔組+Facebook AI
注意:以下主要是機(jī)器翻譯+小量人工校正。
摘要
近年來,檢測與識別一體化的端到端可訓(xùn)練的場景文本識別方法取得了很大進(jìn)展。然而,目前大多數(shù)任意形狀的場景文本定位使用區(qū)域建議網(wǎng)絡(luò)(RPN)來產(chǎn)生建議。RPN在很大程度上依賴于手工設(shè)計(jì)的錨點(diǎn),其方案用軸向?qū)R的矩形表示。前者在處理極端高寬比或不規(guī)則形狀的文本實(shí)例時(shí)表現(xiàn)出困難,而后者通常在密集朝向文本的情況下,將多個(gè)相鄰實(shí)例包含到單個(gè)提案中。為了解決這些問題,我們提出了Mask TextSpotter v3,一種端到端可訓(xùn)練的場景文本識別器,它采用了分割建議網(wǎng)絡(luò)(SPN)代替RPN。我們的SPN是無錨的,可以準(zhǔn)確地表示任意形狀的建議。因此,在檢測極端高寬比或不規(guī)則形狀的文本實(shí)例時(shí),它優(yōu)于RPN。此外,SPN產(chǎn)生的精確建議允許掩蔽的RoI特征用于解耦鄰近的文本實(shí)例。因此,我們的Mask TextSpotter v3可以處理極端高寬比或不規(guī)則形狀的文本實(shí)例,并且其識別精度不會受到附近文本或背景噪聲的影響。具體來說,我們在旋轉(zhuǎn)ICDAR 2013數(shù)據(jù)集(旋轉(zhuǎn)魯棒性)上比最先進(jìn)的方法性能高21.9%,在全文本數(shù)據(jù)集(形狀魯棒性)上比最先進(jìn)的方法性能高5.9%,在MSRA-TD500數(shù)據(jù)集上比最先進(jìn)的方法性能高(長寬比魯棒性)。代碼可在https://github.com/MhLiao/MaskTextSpotterV3獲得。
關(guān)鍵詞:場景文本,檢測,識別。
短評:
- 論文針對的問題:檢測+識別的端到端OCR基本用了RPN,但是其結(jié)構(gòu)在OCR領(lǐng)域有兩個(gè)問題,第一,其難以解決極端高寬比、不規(guī)則形狀文本情況。第二,針對密集文本,也容易將多個(gè)實(shí)例包含在單個(gè)框中。
- 論文的解決方案:設(shè)計(jì)分割建議網(wǎng)絡(luò)SPN來解決RPN無法解決的問題。
1 介紹
在野外閱讀文本是非常重要的,有豐富的現(xiàn)實(shí)應(yīng)用,包括Photo OCR[2],閱讀菜單和地理位置。用于此任務(wù)的系統(tǒng)通常包括文本檢測和識別組件,其中文本檢測的目標(biāo)是本地化文本實(shí)例及其邊界框,而文本識別的目標(biāo)是通過將其轉(zhuǎn)換為字符標(biāo)簽序列來識別被檢測的文本區(qū)域。場景文本識別/端到端識別是一個(gè)結(jié)合了這兩個(gè)任務(wù)的任務(wù),需要檢測和識別。
場景文本閱讀的挑戰(zhàn)主要在于場景文本實(shí)例的不同方向、極端寬高比和不同形狀,這給文本檢測和識別帶來了困難。因此,旋轉(zhuǎn)魯棒性、高寬比魯棒性和形狀魯棒性對于精確的場景文本觀測者是必要的。旋轉(zhuǎn)魯棒性在場景文本圖像中很重要,其中文本不能假定與圖像軸對齊。高寬比的健壯性對于非拉丁文本尤其重要,因?yàn)槲谋就ǔJ怯煤荛L的文本行而不是單詞來組織的。形狀魯棒性是處理不規(guī)則形狀文本的必要條件,經(jīng)常出現(xiàn)在標(biāo)識中。
最近的一個(gè)流行趨勢是將文本檢測和識別結(jié)合到一個(gè)統(tǒng)一的模型中進(jìn)行場景文本識別[3,20],因?yàn)檫@兩個(gè)任務(wù)自然是密切相關(guān)的。一些這樣的場景文本檢測器被設(shè)計(jì)用于檢測和識別多面向文本實(shí)例,如Liu等人[27]和He等人[15]。Mask TextSpotter v1 [30], Qin等人[34]和Mask TextSpotter v2[21]可以進(jìn)一步處理任意形狀的文本實(shí)例。Mask TextSpotter系列采用Region Proposal Network (RPN)[35]生成提案,提取提案的RoI特征進(jìn)行檢測識別。Qin et al.[34]直接使用Mask R-CNN[11]進(jìn)行檢測,[11]也使用RPN產(chǎn)生提案。這些方法在旋轉(zhuǎn)魯棒性和形狀魯棒性方面取得了很大的進(jìn)展。然而,這些方法的架構(gòu)并沒有被設(shè)計(jì)成完全健壯的旋轉(zhuǎn)、長寬比和形狀。盡管這些方法可以處理不同方向和不同形狀的分散文本實(shí)例,但由于RPN的限制,它們可能無法處理密集方向的文本實(shí)例或極端寬高比的文本行。
RPN的局限性主要體現(xiàn)在兩個(gè)方面:(1)手動預(yù)先設(shè)計(jì)的錨點(diǎn)是使用軸向?qū)R的矩形來定義的,不能輕易匹配極端寬高比的文本實(shí)例。(2)當(dāng)文本實(shí)例密集放置時(shí),生成的軸向矩形方案可以包含多個(gè)相鄰的文本實(shí)例。從圖1可以看出,Mask TextSpotter v2[21]生成的提案相互重疊,因此其RoI特征包含多個(gè)相鄰文本實(shí)例,導(dǎo)致檢測和識別錯誤。如圖1所示,錯誤可以是一個(gè)或多個(gè)字符,如果給出一個(gè)強(qiáng)詞典,可能不會體現(xiàn)在性能中。因此,不使用詞匯或使用通用詞匯的評價(jià)更具說服力。
圖1所示。RPN和SPN的比較。左圖:最先進(jìn)的,基于rpn的文本偵測器(Mask TextSpotter v2 [21]);右圖:基于spn的文本偵測器(Mask TextSpotter v3)。雖然RPN方案可以很好地定位于軸對稱矩形,但其RoI特征包含多個(gè)文本實(shí)例,導(dǎo)致檢測/識別不準(zhǔn)確。通過比較,我們的SPN方案更加準(zhǔn)確,因此每個(gè)RoI特征只產(chǎn)生一個(gè)文本實(shí)例,從而獲得準(zhǔn)確的檢測/識別結(jié)果。roi以圖像區(qū)域表示。
在本文中,我們提出了一個(gè)分割建議網(wǎng)絡(luò)(SPN),旨在解決基于rpn的方法的局限性。我們的SPN是無錨的,并給出了提案的精確多邊形表示。不受預(yù)先設(shè)計(jì)的錨點(diǎn)的限制,SPN可以處理極端高寬比或不規(guī)則形狀的文本實(shí)例。然后,通過將我們提出的RoI硬掩蔽應(yīng)用到RoI特征中,可以充分利用它的準(zhǔn)確建議,從而抑制鄰近的文本實(shí)例或背景噪聲。這對于密集定向或形狀不規(guī)則的文本是有益的,如圖1所示。因此,通過在Mask TextSpotter v2中采用SPN,提出了Mask TextSpotter v3。
我們的實(shí)驗(yàn)表明,?Mask TextSpotter v3顯著提高了對旋轉(zhuǎn)、高寬比和形狀的魯棒性。在旋轉(zhuǎn)的ICDAR 2013數(shù)據(jù)集上,圖像以不同角度旋轉(zhuǎn),我們的方法在檢測和端到端識別方面都超過了最先進(jìn)的21.9%。在包含各種形狀文本實(shí)例的全文本數(shù)據(jù)集[4]上,我們的方法在端到端識別任務(wù)上比目前最先進(jìn)的方法性能高出5.9%。我們的方法還在MSRATD500數(shù)據(jù)集[45]上實(shí)現(xiàn)了最先進(jìn)的性能,該數(shù)據(jù)集標(biāo)記了具有極端寬高比的文本行,以及ICDAR 2015數(shù)據(jù)集,該數(shù)據(jù)集包含許多具有通用詞典的低分辨率小文本實(shí)例。總之,我們的貢獻(xiàn)有三方面:
- 我們描述Segmentation Proposal Network (SPN),以準(zhǔn)確表示任意形狀的建議。無錨SPN克服了RPN在處理極端寬高比或不規(guī)則形狀文本時(shí)的局限性,并提供了更準(zhǔn)確的建議來提高識別的魯棒性。據(jù)我們所知,它是第一個(gè)端到端可訓(xùn)練文本定位的任意形狀提議生成器。
- 我們提出了hard RoI masking,將多邊形算法應(yīng)用于RoI特征,有效地抑制背景噪聲或相鄰文本實(shí)例。
- 我們提出的Mask TextSpotter v3顯著提高了對旋轉(zhuǎn)、寬高比和形狀、跳動/實(shí)現(xiàn)的魯棒性。
2 相關(guān)工作
目前的文本識別方法大致可以分為兩類:(1)兩階段場景文本識別方法,即訓(xùn)練檢測器和識別器分開;(2)端到端可訓(xùn)練的場景文本識別方法,將檢測和識別集成到一個(gè)統(tǒng)一的模型中。
兩階段場景文本識別方法使用兩個(gè)獨(dú)立的網(wǎng)絡(luò)進(jìn)行檢測和識別。Wang et al.[41]試圖用cnn對字符進(jìn)行檢測和分類。Jaderberg等人[17]提出了一種場景文本識別方法,該方法由提案生成模塊、用于過濾提案的隨機(jī)森林分類器、用于精煉提案的基于cnn的回歸模塊和用于識別的基于cnn的單詞分類器組成。TextBoxes[23]和TextBoxes++[22]將其提出的場景文本檢測器與CRNN[37]結(jié)合,通過整合檢測置信度和識別置信度重新計(jì)算置信度。Zhan等[46]提出將多模態(tài)空間學(xué)習(xí)應(yīng)用于場景文本檢測識別系統(tǒng)。
端到端可訓(xùn)練場景文本識別近年來,由于文本檢測和識別的互補(bǔ)性,端到端可訓(xùn)練場景文本識別方法在這一領(lǐng)域占據(jù)主導(dǎo)地位。Li等人將水平文本檢測器和序列到序列文本識別器集成到一個(gè)統(tǒng)一的網(wǎng)絡(luò)中。同時(shí),Bu sta等[3]使用了類似的架構(gòu),其檢測器可以處理多面向文本實(shí)例。之后,Liu等[27]和He等[15]分別采用了更好的檢測和識別方法,進(jìn)一步提高了性能。
Mask TextSpotter v1[30]是首個(gè)端到端可訓(xùn)練的任意形狀場景文本spotter,由基于Mask R-CNN[11]的檢測模塊和用于識別的字符分割模塊組成。在Mask TextSpotter v1[30]之后,幾個(gè)任意形狀的場景文本spot同時(shí)出現(xiàn)。Mask TextSpotter v2[21]進(jìn)一步擴(kuò)展了Mask TextSpotter v1,通過應(yīng)用空間注意模塊進(jìn)行識別,緩解了字符級標(biāo)注的問題,顯著提高了性能。Qin等人的[34]還結(jié)合了Mask R-CNN檢測器和基于注意力的識別器來處理任意形狀的文本實(shí)例。Xing等人提出同時(shí)檢測/識別字符和文本實(shí)例,利用文本實(shí)例檢測結(jié)果對字符進(jìn)行分組。TextDragon[7]通過分組和解碼一系列本地區(qū)域及其中心線來檢測和識別文本實(shí)例。
Qin等[34]利用mask R-CNN檢測器的mask map對RoI特征進(jìn)行RoI掩蔽,有利于識別。但是,采用RPN生成提案的檢測器可能會產(chǎn)生不準(zhǔn)確的掩碼映射,導(dǎo)致進(jìn)一步的識別錯誤。與Qin et al.[34]不同的是,我們的Mask TextSpotter v3獲得了準(zhǔn)確的提案,并將我們的硬RoI掩蔽應(yīng)用于RoI特征上,用于檢測和識別模塊。因此,它可以準(zhǔn)確地檢測和識別密集方向/彎曲文本實(shí)例。基于分割的場景文本檢測器Zhang等[47]首先使用FCN獲取文本區(qū)域的顯著圖,然后結(jié)合顯著圖和字符成分(使用MSER)估計(jì)文本行假設(shè)。最后,另一個(gè)FCN對每個(gè)字符的質(zhì)心進(jìn)行預(yù)測,以消除錯誤假設(shè)。他等人提出了級聯(lián)卷積文本網(wǎng)絡(luò)(CCTN)用于文本中心線和文本區(qū)域。PSENet[42]采用逐級尺度擴(kuò)展算法從多尺度分割地圖中得到邊界盒。DB[24]提出了一種分段網(wǎng)絡(luò)的可微二值化模塊。與以往采用多個(gè)線索或額外模塊進(jìn)行檢測任務(wù)的基于分割的場景文本檢測器相比,我們的方法側(cè)重于基于分割網(wǎng)絡(luò)的端到端場景文本識別模型的提案生成。
3 方法
Mask TextSpotter v3包括ResNet-50[12]骨干,用于生成建議的分割建議網(wǎng)絡(luò)(SPN),用于提煉建議的Fast R-CNN模塊[8],用于準(zhǔn)確檢測文本實(shí)例分割模塊,字符分割模塊和用于識別的空間注意模塊。Mask TextSpotter v3的流水線如圖2所示。該方法提供了多邊形表示,并消除了感興趣區(qū)域特征的附加噪聲,從而獲得了準(zhǔn)確的檢測和識別結(jié)果。
圖2所示。Mask TextSpotter v3概述。‘F’:融合特征圖用于分割。我們使用原始圖像區(qū)域來表示roi,以便更好地顯示。
3.1 ?Segmentation proposal network
概述:
- ?我么的SPN采用U-net結(jié)構(gòu),而RPN通常采用FPN結(jié)構(gòu)。
- F結(jié)構(gòu)是?concatenates feature maps,F大小是H/4 * W/4
3.2 Hard RoI masking
由于自定義RoI Align操作符只支持軸對齊的矩形邊界框,我們使用多邊形建議的最小軸對齊的矩形邊界框來生成RoI特征,以保持RoI Align操作符的簡單性。
Qin等人[34]提出了RoI掩蔽,該掩蔽將掩蔽概率映射與RoI特征相乘,其中掩蔽概率映射由mask R-CNN檢測模塊生成。然而,掩碼概率圖可能是不準(zhǔn)確的,因?yàn)樗鼈兪怯蒖PN的建議預(yù)測。例如:它可以包含密集面向文本的多個(gè)相鄰文本實(shí)例。在這種情況下,我們?yōu)樘岚冈O(shè)計(jì)了精確的多邊形表示,因此我們可以通過我們提出的硬RoI掩蔽直接將提案應(yīng)用到RoI特征上。
硬RoI掩碼將二元多邊形掩碼與RoI特征相乘,以抑制背景噪聲或鄰近文本實(shí)例,其中多邊形掩碼M表示一個(gè)軸向?qū)R的矩形二值映射,多邊形區(qū)域內(nèi)所有值為1,多邊形區(qū)域外所有值為0。假設(shè)R0為RoI特征,M為多邊形掩模,大小為32 32,則掩模的RoI特征R可計(jì)算為R = R0 M,其中表示按元素依次相乘。M可以通過將多邊形提議區(qū)域填充為1,并將多邊形外的值設(shè)置為0來輕松生成。我們在第4.7節(jié)報(bào)告了對硬RoI掩蔽的消融研究,其中我們將提出的硬RoI掩蔽與Qin等人[34]中的RoI掩蔽等其他算子進(jìn)行了比較。
采用硬掩蔽后的RoI特征抑制了背景區(qū)域或相鄰文本實(shí)例,顯著降低了檢測和識別模塊的困難和錯誤。
3.3 Detection and recognition
我們主要采用Mask TextSpotter v2[21]文本檢測和識別模塊的設(shè)計(jì),原因如下:(1)Mask TextSpotter v2是目前最先進(jìn)的具有競爭力的檢測和識別模塊。(2)由于Mask TextSpotter v2是基于rpn的場景文本檢波器中的代表性方法,我們可以比較我們的方法來驗(yàn)證我們所提出的SPN的有效性和魯棒性。
在檢測方面,將RoI硬掩蔽產(chǎn)生的掩蔽特征輸入Fast R-CNN模塊進(jìn)一步細(xì)化定位,并將文本實(shí)例分割模塊進(jìn)行精確分割。采用字符分割模塊和空間注意模塊進(jìn)行識別。
3.4 Optimization
概述:
- L = Ls + α1Lrcnn + α2Lmask,其中Ls是SPN損失,α1和α2默認(rèn)為1。
- 采用dice loss(骰子的損失)。
4 實(shí)驗(yàn)
我們評估了我們的方法,在不同的標(biāo)準(zhǔn)場景文本基準(zhǔn)上測試了四種變體的健壯性:旋轉(zhuǎn)、縱橫比、形狀和小文本實(shí)例。我們進(jìn)一步提供了我們的硬RoI掩蔽的消融研究。
4.1 數(shù)據(jù)集
SynthText[9]是一個(gè)包含800k文本圖像的合成數(shù)據(jù)集。它為單詞/字符邊界框和文本序列提供注解。
旋轉(zhuǎn)ICDAR 2013數(shù)據(jù)集(RoIC13)由ICDAR 2013數(shù)據(jù)集[19]生成,其圖像聚焦于感興趣的文本內(nèi)容。文本實(shí)例位于水平方向,并通過與軸對齊的矩形框進(jìn)行標(biāo)記。給出了字符級的分段注釋,因此我們可以得到字符級的邊界框。該數(shù)據(jù)集包含229張訓(xùn)練圖像和233張測試圖像。為了測試旋轉(zhuǎn)的穩(wěn)健性,我們創(chuàng)建旋轉(zhuǎn)的ICDAR 2013數(shù)據(jù)集,通過旋轉(zhuǎn)一些特定角度的ICDAR 2013基準(zhǔn)測試集中的圖像和注釋,包括15、30、45、60、75和90。由于ICDAR 2013數(shù)據(jù)集中所有文本實(shí)例都是水平方向的,我們可以很容易地控制文本實(shí)例的方向,并找到性能和文本方向之間的關(guān)系。我們在ICDAR 2015數(shù)據(jù)集中使用了評估協(xié)議,因?yàn)镮CDAR 2013中的評估協(xié)議只支持軸對齊的邊界框。
MSRA-TD500數(shù)據(jù)集[45]是一個(gè)包含中英文文本的多語言場景文本檢測基準(zhǔn),包括300幅訓(xùn)練圖像和200幅測試圖像。文本實(shí)例是在文本行級別注釋的,因此有許多文本實(shí)例具有極端的寬高比。此數(shù)據(jù)集不包含識別注釋。
全文本數(shù)據(jù)集[4,5]包括1,255張訓(xùn)練圖像和300張測試圖像。它提供了各種形狀的文本實(shí)例,包括水平形狀、面向形狀和曲線形狀,這些形狀用多邊形邊界框和轉(zhuǎn)錄進(jìn)行注釋。請注意,盡管Total-Text數(shù)據(jù)集中提供了字符級注釋,但我們并不使用它們與以前的方法進(jìn)行公平比較[31,21]。
ICDAR 2015數(shù)據(jù)集(IC15)[18]由1000幅訓(xùn)練圖像和500幅測試圖像組成,使用四邊形邊界框標(biāo)注。大多數(shù)圖像都是低分辨率的,并且包含小的文本實(shí)例。
4.2 實(shí)現(xiàn)細(xì)節(jié)
為了與Mask TextSpotter v2[21]進(jìn)行公平比較,我們使用了下面描述的相同的訓(xùn)練數(shù)據(jù)和訓(xùn)練設(shè)置。數(shù)據(jù)增強(qiáng)緊跟Mask TextSpotter v2 3的正式實(shí)現(xiàn),包括多尺度訓(xùn)練和像素級增強(qiáng)。由于我們提出的SPN可以處理任意形狀和方向的文本實(shí)例而不產(chǎn)生沖突,因此我們采用了一種更激進(jìn)的旋轉(zhuǎn)數(shù)據(jù)擴(kuò)充。
輸入圖像以[90,90]的角度范圍隨機(jī)旋轉(zhuǎn),而原來的Mask TextSpotter v2使用的角度范圍是[30,30]。注意,Mask TextSpotter v2是用與我們在RoIC13數(shù)據(jù)集上的實(shí)驗(yàn)相同的旋轉(zhuǎn)增強(qiáng)訓(xùn)練的。
模型采用SGD優(yōu)化,質(zhì)量衰減為0.001,動量為0.9。它首先使用SynthText進(jìn)行預(yù)訓(xùn)練,然后使用SynthText、ICDAR 2013數(shù)據(jù)集、ICDAR 2015數(shù)據(jù)集、sccut數(shù)據(jù)集[48]和totaltext數(shù)據(jù)集的混合進(jìn)行微調(diào),用于250k迭代。對于每個(gè)8個(gè)小批量數(shù)據(jù),這些數(shù)據(jù)集之間的采樣比設(shè)置為2:1:2:1:1:1。
在訓(xùn)練前,初始學(xué)習(xí)率為0.01,然后分別在100k次和200k次時(shí)降至十分之一。在微調(diào)過程中,我們采用相同的訓(xùn)練方案,初始學(xué)習(xí)率為0.001。我們選擇250k迭代的模型權(quán)值進(jìn)行預(yù)處理和微調(diào)。在推斷期間,輸入圖像的短邊在RoIC13數(shù)據(jù)集上被調(diào)整為1000,在IC15數(shù)據(jù)集上被調(diào)整為1440,保持寬高比。
4.3 旋轉(zhuǎn)的魯棒性
我們通過在RoIC13數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)來測試旋轉(zhuǎn)魯棒性。我們比較了提出的Mask TextSpotter v3和兩種最先進(jìn)的方法Mask TextSpotter v2 3和CharNet 4,以及它們的官方實(shí)現(xiàn)。為了進(jìn)行公平的比較,Mask TextSpotter v2使用與我們相同的數(shù)據(jù)和數(shù)據(jù)增強(qiáng)進(jìn)行訓(xùn)練。對RoIC13數(shù)據(jù)集的一些定性比較如圖4所示。
圖4所示。RoIC13數(shù)據(jù)集的定性結(jié)果。上圖:Mask TextSpotter v2;底部:掩碼TextSpotter v3。更多的結(jié)果在補(bǔ)充
我們對CharNet使用帶有大主干(Hourglass-88[33])的預(yù)訓(xùn)練模型,因?yàn)楣俜綄?shí)現(xiàn)不提供ResNet-50主干。請注意,CharNet的官方預(yù)訓(xùn)練模型是用不同的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練的。因此,不適合直接與Mask TextSpotter v3進(jìn)行性能比較。但是,我們可以觀察到在不同的旋轉(zhuǎn)角度下性能的變化。當(dāng)旋轉(zhuǎn)角度較大時(shí),CharNet的檢測和端到端識別性能急劇下降。
如圖4.3所示,當(dāng)旋轉(zhuǎn)角度分別為30、45、60時(shí),Mask TextSpotter v2的檢測性能急劇下降。相比之下,Mask TextSpotter v3的檢測結(jié)果在不同的旋轉(zhuǎn)角度下更加穩(wěn)定。Mask TextSpotter v3和Mask TextSpotter v2之間的最大性能差距發(fā)生在旋轉(zhuǎn)角度為45時(shí)。如表1所示,在45度角時(shí),Mask TextSpotter v3的Precision, Recall,F-measure方面比Mask TextSpotter v2高出26.8%,18.0%和22.0%。注意,對于0和90,這兩種方法獲得幾乎相同的結(jié)果是合理的,因?yàn)?表示沒有旋轉(zhuǎn),并且當(dāng)旋轉(zhuǎn)角度為90時(shí),邊界框也是軸對齊的矩形。
表1。RoIC13數(shù)據(jù)集的定量結(jié)果。評估協(xié)議與IC15數(shù)據(jù)集中的協(xié)議相同。端到端識別任務(wù)在不使用詞典的情況下進(jìn)行評估。*CharNet測試與正式發(fā)布的預(yù)培訓(xùn)模型;Mask TextSpotter v2 (MTS v2)與Mask TextSpotter v3 (MTS v3)使用相同的旋轉(zhuǎn)增強(qiáng)訓(xùn)練。P、R和F表示精度、召回率和F-度量。端到端識別簡稱E2E。更多的結(jié)果在補(bǔ)充中
端到端識別結(jié)果的趨勢與檢測結(jié)果相似,如圖4.3所示。Mask TextSpotter v2和Mask TextSpotter v3在旋轉(zhuǎn)角度為30、45、60時(shí),性能差距特別大。掩模TextSpotter v3超過掩模TextSpotter v2超過19.2%的f測量與旋轉(zhuǎn)角度45和60。45旋轉(zhuǎn)角度的詳細(xì)結(jié)果列在表1中,其中Mask TextSpotter v3達(dá)到22.1,21.0,和21.9的性能提高相比,之前的最先進(jìn)的方法Mask TextSpotter v2。
對檢測任務(wù)和端到端識別任務(wù)的定性和定量結(jié)果證明了Mask TextSpotter v3的旋轉(zhuǎn)魯棒性。原因是Mask TextSpotter v2中使用的RPN在處理密集面向文本實(shí)例時(shí)會導(dǎo)致檢測和識別錯誤。相比之下,在這種情況下,該SPN可以生成準(zhǔn)確的提案,并通過硬RoI掩蔽排除相鄰文本實(shí)例。更多的定性和定量結(jié)果在補(bǔ)充部分提供。
4.4 高寬比穩(wěn)健性
在MSRATD500數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了高寬比的魯棒性,該數(shù)據(jù)集包含大量高寬比文本行。由于沒有識別注釋,我們禁用識別模塊,只在檢測任務(wù)上進(jìn)行評估。我們的定性和定量結(jié)果如圖5和表2所示。
圖5所示。MSRA-TD500數(shù)據(jù)集的定性結(jié)果。上圖:Mask TextSpotter v2;底部:掩碼TextSpotter v3
表2。MSRA-TD500數(shù)據(jù)集的定量檢測結(jié)果
盡管Mask TextSpotter v2是目前最先進(jìn)的端到端識別方法,但由于RPN的限制,它不能檢測長文本行。與Mask TextSpotter v2相比,Mask TextSpotter v3實(shí)現(xiàn)了9.3%的性能增益,證明了其在處理極端寬高比文本行方面的優(yōu)越性。此外,Mask TextSpotter v3甚至優(yōu)于為文本行檢測設(shè)計(jì)的最先進(jìn)的方法[29,1,38],進(jìn)一步顯示了其對寬高比變化的魯棒性。
4.5 形狀的魯棒性
形狀變化的魯棒性通過totaltext數(shù)據(jù)集上的端到端識別性能進(jìn)行評估,該數(shù)據(jù)集包含各種形狀的文本實(shí)例,包括水平、面向和彎曲形狀。一些定性結(jié)果如圖6所示,我們可以看到我們的方法獲得了比Mask TextSpotter v2更準(zhǔn)確的檢測和識別結(jié)果,特別是在不規(guī)則形狀或相鄰字符之間有較大空間的文本實(shí)例上。從表3中所列的定量結(jié)果可以看出,在沒有提供詞典的情況下,我們的方法在F-measure方面比Mask TextSpotter v2高出5.9%。定性和定量結(jié)果均表明,該方法對形狀變化具有較好的魯棒性。
圖6所示。totaltext數(shù)據(jù)集的定性結(jié)果。上圖:Mask TextSpotter v2;底部:掩碼TextSpotter v3。紅色背景下的黃色文本是一些不準(zhǔn)確的識別結(jié)果。只有不準(zhǔn)確的識別結(jié)果被可視化
表3。totaltext數(shù)據(jù)集的端到端定量識別結(jié)果。“沒有”意味著沒有詞典的認(rèn)可。Full dictionary包含測試集中的所有單詞。表中的值是f值。評估協(xié)議與Mask TextSpotter v2中的相同
4.6 小文本實(shí)例的健壯性
IC15數(shù)據(jù)集的挑戰(zhàn)主要在于低分辨率和小文本實(shí)例。如表4所示,Mask TextSpotter v3在所有使用不同詞匯的任務(wù)中都優(yōu)于Mask TextSpotter v2,說明了我們的方法在處理低分辨率圖像中的小文本實(shí)例方面的優(yōu)越性。
雖然TextDragon[7]在一些使用強(qiáng)/弱詞典的任務(wù)上取得了更好的結(jié)果,但我們的方法在通用詞典上的表現(xiàn)大大優(yōu)于它,分別為7.1%和9.0%。我們認(rèn)為,在大多數(shù)現(xiàn)實(shí)世界的應(yīng)用程序中,不存在只有100/1000+單詞的強(qiáng)/弱詞匯表,因此使用一個(gè)90k單詞的通用詞匯表的性能更有意義,也更具有挑戰(zhàn)性。無論如何,我們方法中基于注意的識別器可以學(xué)習(xí)語言知識,而TextDragon中基于ctc的識別器在字符預(yù)測方面更加獨(dú)立。Mask TextSpotter v3較少依賴于強(qiáng)詞典的校正,這也是其優(yōu)勢之一。
表4。基于F-measure的IC15數(shù)據(jù)集的定量結(jié)果。S、W和G分別表示強(qiáng)、弱和屬類詞匯的識別。括號中的值(例如1600和1400)表示輸入圖像的短邊。請注意,在大多數(shù)現(xiàn)實(shí)世界的應(yīng)用程序中,不存在只有100/1000以上單詞的強(qiáng)/弱詞匯表。因此,90k詞的通用詞典的性能更有意義
4.7 燒蝕研究
將基于多邊形的建議應(yīng)用于RoI特性是很重要的。這種操作符有兩種屬性:直接/間接和軟/硬。直接/間接是指直接使用分割/二進(jìn)制地圖或通過附加層;Soft /hard表示軟概率掩碼映射,取值為[0,1]或二進(jìn)制多邊形掩碼映射,取值為0或1。我們對四種組合進(jìn)行了實(shí)驗(yàn),結(jié)果表明,我們提出的硬RoI掩蔽(直接-硬)是簡單的,但達(dá)到了最好的性能。結(jié)果和討論在補(bǔ)充中。
4.8 局限性
盡管面具TextSpotter v3是更健壯的旋轉(zhuǎn)文本變化比現(xiàn)有的先進(jìn)的場景文本觀察員,它仍然遭受輕微的性能干擾一些極端的旋轉(zhuǎn)角度,例如90年,圖4.3所示,由于很難識別器來判斷文本序列的方向。在未來,我們計(jì)劃使識別器對這種旋轉(zhuǎn)更加魯棒。
5 結(jié)論
我們提出Mask TextSpotter v3,一個(gè)端到端可訓(xùn)練的任意形狀場景文本spotter。它引入了SPN來生成提案,用精確的多邊形表示。由于更精確的建議,Mask TextSpotter v3在檢測和識別旋轉(zhuǎn)或不規(guī)則形狀的文本實(shí)例時(shí)比以前使用RPN生成建議的任意形狀場景文本探測器更健壯。我們在不同旋轉(zhuǎn)角度的ICDAR 2013數(shù)據(jù)集、長文本行的MSRA-TD500數(shù)據(jù)集和各種文本形狀的totaltext數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明了對旋轉(zhuǎn)、寬高比和Mask TextSpotter v3形狀變化的魯棒性。此外,在IC15數(shù)據(jù)集上的結(jié)果表明,提出的Mask TextSpotter v3在小文本實(shí)例檢測和識別方面也具有魯棒性。我們希望所提出的SPN可以將OCR的應(yīng)用擴(kuò)展到其他具有挑戰(zhàn)性的領(lǐng)域[10],并為用于其他對象檢測/實(shí)例分割任務(wù)的提案生成器提供見解。
?
?
?
?
?
總結(jié)
以上是生活随笔為你收集整理的(OCR论文)Mask TextSpotter V3机翻的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 演员动态周报|刘奕君屈楚萧闫妮《信条》、
- 下一篇: python、C++ 中通过OpenCV