论文盘点:CVPR 2019 - 文本检测专题
作者丨燕小花?
研究方向丨計(jì)算機(jī)視覺
CRAFT
論文主要思想?
本文的主要思路是先檢測(cè)單個(gè)字符(character region score)及字符間的連接關(guān)系(affinity score),然后根據(jù)字符間的連接關(guān)系確定最終的文本行,簡(jiǎn)稱 CRAFT。
其網(wǎng)絡(luò)結(jié)構(gòu)與 EAST 的網(wǎng)絡(luò)結(jié)構(gòu)相似:特征提取主干網(wǎng)絡(luò)部分采用的是 VGG-16 with batch normalization;特征 decode 模塊與 U-Net 相似,也是采用自頂向下的特征聚合方式;網(wǎng)絡(luò)最終輸出兩個(gè)通道特征圖,即 region score map 和 affinity score map,具體的網(wǎng)絡(luò)結(jié)構(gòu)圖如下:
對(duì)于訓(xùn)練標(biāo)簽生成,與以往分割圖(以二值化的方式離散標(biāo)記每個(gè)像素的 label)的生成方式不同,本文采用高斯熱度圖來生成 region score 和 affinity score。文中說采用高斯熱度圖的好處是它能很好地處理沒有嚴(yán)格包圍的邊界區(qū)域。
對(duì)于 character region score 標(biāo)簽生成,由于對(duì) bbox 中的每個(gè)像素計(jì)算高斯分布值比較耗時(shí),本文結(jié)合透視變換,采用了近似估計(jì)的方法來生成標(biāo)簽,具體步驟如下:a). 準(zhǔn)備一個(gè)二維的高斯圖;b). 計(jì)算高斯圖區(qū)域和每個(gè)文字框的透視變換;c). 將高斯圖變換到文字框區(qū)域。
而對(duì)于 character affinity score 標(biāo)簽生成,先畫出每個(gè)字符框的對(duì)角線;再取每個(gè)文本對(duì)角線的上下兩個(gè)三角形的中心點(diǎn),將緊挨著的兩個(gè)文本框中的中心點(diǎn)相連,得到 affinity score(即下圖中的紅色框)。
這樣的標(biāo)簽生成可以使模型在較小感受野的情況下,也可以有效地檢測(cè)很大很長(zhǎng)的文本實(shí)例,同時(shí)使得模型只關(guān)注單個(gè)字符與字符間的聯(lián)系,不需要關(guān)注整個(gè)文本行。
CRAFT 可以用于處理任意方向文本、 曲線文本、 畸變文本等。該方法具有如下特性:
1. 對(duì)尺度變換具有較好地魯棒性,本文都是基于單尺度圖像進(jìn)行實(shí)驗(yàn)的;
2. 本文模型不能適用與粘連的語言,如 Bangla and Arabic characters;
3. 相比于端到端的文本檢測(cè)方法,該方法在訓(xùn)練的時(shí)候也借助了文本長(zhǎng)度(因?yàn)樵谟?xùn)練過程中對(duì)于合成樣本可以很好地進(jìn)行單個(gè)字符的標(biāo)注,但是對(duì)于現(xiàn)有的文本數(shù)據(jù)庫,其標(biāo)注方式基本是基于文本行的,所以文中通過借助文本行長(zhǎng)度來進(jìn)行弱監(jiān)督訓(xùn)練);
4. 泛化能力較強(qiáng)。
LOMO
論文主要思想?
受限與 CNN 的感受野的及文本行的表征方式(bbox 或四邊形),長(zhǎng)文本行與曲線文本的檢測(cè)仍存在極大的挑戰(zhàn)。針對(duì)此,本文提出了 LOMO (Look More Than Once),它由三部分組成:直接回歸模塊(DR)、迭代修正模塊(IRM)、形狀表征模塊(SEM)。
首先由直接回歸模塊產(chǎn)生粗略的四邊形表征的候選文本框;接著在提取的特征圖上通過迭代修正得到完整的長(zhǎng)文本行的四邊形表征;最后通過結(jié)合文本行區(qū)域、文本行中心線及文本行邊界偏移得到最終的文本行。具體的框架圖如下:
對(duì)于直接回歸模塊,文中參考了 EAST,這里就不詳細(xì)解釋了。對(duì)于迭代修正模塊(IRM),使用了 RoI transform 層來提取四邊形文本行的特征塊,之所以沒有使用 RoI Pooling 或 RoI Align,是因?yàn)?#xff1a;
1. RoI transform 在提取四邊形文本行對(duì)應(yīng)的特征塊時(shí),保持寬高比不變;
2. 在相同感受野的情況下,文本行的四個(gè)角點(diǎn)可以為文本行的邊界提供更加精確的信息。
因此在回歸四個(gè)角點(diǎn)的時(shí)候,本文引入了角點(diǎn)注意力機(jī)制。對(duì)于形狀表征模塊(SEM),回歸了文本行的三種幾何屬性:文本行區(qū)域、文本行中心線及文本行邊界偏移。
其中文本行區(qū)域是一個(gè)二值 mask,文字區(qū)域用 1 表示,背景區(qū)域用 0 表示;文本行中心線也是一個(gè)二值 mask,它是文本行多邊形標(biāo)注的一個(gè)向內(nèi)收縮的版本(具體看 EAST);邊界偏移是 4 通道的 feature map。
對(duì)于文本行多邊形生成,具體步驟如下:
1. 文本中心線采樣:文中采用了 n 個(gè)等間距的方式對(duì)文本行中心線進(jìn)行采樣。對(duì)于曲線文本(多邊形標(biāo)注的),n=7;對(duì)于其它數(shù)據(jù)集(四邊形標(biāo)注的,如ICDAR2015,ICDAR2017 等),n=2;
2. 邊界點(diǎn)生成:基于已采樣的文本中心線,結(jié)合相同位置的 4 個(gè)角點(diǎn)的偏移 maps,得到文本行的邊界點(diǎn),然后順時(shí)針連接這些角點(diǎn),就可以得到文本行的完整表征;
3. 多邊形得分:文中將多邊形區(qū)域內(nèi)的文本行響應(yīng)均值作為最終的文本行得分。
▲?圖中黃色表示ground truth;藍(lán)色框是DR模塊的輸出;綠色框是IRM模塊的輸出;紅色框是SEM模塊的輸出。
LSAE
論文主要思想
本文的主要思想是將文本檢測(cè)當(dāng)做一種實(shí)例分割,采用了基于分割框架來進(jìn)行檢測(cè)。具體的做法是將每個(gè)文本行看成一個(gè)連通區(qū)域,為了更好地區(qū)分不同文本實(shí)例(即挨得很近的文本或者是很大很長(zhǎng)的文本),本文提出了將圖像像素映射到嵌入特征空間中,在該空間中,屬于同一文本實(shí)例的像素會(huì)更加接近彼此,反之不同文本實(shí)例的像素將會(huì)遠(yuǎn)離彼此。
特征提取主干網(wǎng)絡(luò)采用的是 ResNet-50,接著使用兩個(gè)對(duì)稱的特征融合模塊(即兩個(gè)對(duì)稱的特征金字塔,這里合并的策略與 PANet 中的自適應(yīng)特征池化相似),一個(gè)用于后續(xù)的嵌入分支(Embedding branch),另一個(gè)用于后續(xù)的分割分支(文本行前景圖,包括全文本行前景圖和向內(nèi)收縮后的文本行前景圖)。
通過權(quán)重共享,使得兩個(gè)任務(wù)優(yōu)勢(shì)互補(bǔ)。網(wǎng)絡(luò)輸出包括嵌入特征圖和文本行前景掩膜圖,然后經(jīng)過后處理得到最終的預(yù)測(cè)文本行。總體網(wǎng)絡(luò)結(jié)構(gòu)如下圖:
為什么要使用嵌入形狀感知?1)相比與通用的目標(biāo)檢測(cè),文本檢測(cè)更難根據(jù)邊界確定兩個(gè)挨的很近的文本實(shí)例;2)文本行的寬高比變化太大,如從單個(gè)文字到整個(gè)文本行。
文中針對(duì)該分支提出了 Shape-Aware Loss損失函數(shù),它包括兩部分的損失:方差損失和距離損失,該損失函數(shù)用于區(qū)分嵌入特征空間中的不同文本實(shí)例。具體的計(jì)算公式如下:
對(duì)于最終文本行的構(gòu)建:論文中通過結(jié)合嵌入特征圖,Full Map,Center Map 三種特征圖來進(jìn)行聚類,得到最終的文本行。
具體的聚類步驟如下:首先使用 DBSCAN 聚類算法得到兩個(gè)聚類集合:Full Map 的和 Center Map 的;接著對(duì)在 Full Map 內(nèi) Center Map 外的像素進(jìn)行簇類劃分,這里劃分的規(guī)則是根據(jù)嵌入空間中當(dāng)前像素的嵌入距離到每個(gè)簇類平均嵌入距離,若小于指定的閾值,則該像素歸于當(dāng)前簇類;反之,亦然。接著通過上述遞歸,得到新的簇類集合,然后對(duì)每個(gè)簇類集合采用最小外接矩形框最為最終的文本行檢測(cè)框。
為什么不直接在嵌入空間中使用聚類?直接使用嵌入空間進(jìn)行聚類,并不能很好地區(qū)分不同的文本實(shí)例。
PSENet
論文主要思想?
形狀魯棒性文本檢測(cè)存在以下挑戰(zhàn):1)現(xiàn)有的文本檢測(cè)是基于四邊形或旋轉(zhuǎn)矩形,很難將任意形狀的文本(特別是形狀文本)進(jìn)行包閉操作;2)大多數(shù)基于像素分割的方法不能很好地區(qū)分非常鄰近的文本實(shí)例。
針對(duì)上述問題,本論文提出了基于語義分割的單文本實(shí)例多預(yù)測(cè)方法(簡(jiǎn)稱 PSENet),它采用了前向漸進(jìn)式尺度擴(kuò)展的方法用來區(qū)分鄰近的文本實(shí)例,可用于檢測(cè)任意方向的文本。
PSENet 沿用了特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)(簡(jiǎn)稱 FPN),并在此基礎(chǔ)上增加了特征融合和漸進(jìn)式尺度擴(kuò)展的方式來實(shí)現(xiàn)自然場(chǎng)景中文本行的檢測(cè)。具體步驟如下:
1. 先沿用 FPN 中的網(wǎng)絡(luò)結(jié)構(gòu)作為特征提取主干網(wǎng)絡(luò),提取 4 個(gè) feature maps(低維度和高維度特征連接在一起),分別為 P2, P3, P4, P5;
2. 將上述提取的特征進(jìn)行融合得到 F,F 中包含了不同感受野的信息,對(duì)應(yīng)融合操作為:
融合后 F 的通道數(shù)為 256×4 = 1024 ;
3. 將融合后的 F 送入 Conv3-BN-ReLu 層(得到 256 個(gè)通道),然后再經(jīng)過 Conv1-Up-Sigmoid 層產(chǎn)生 n 個(gè)分支,生成不同的分割結(jié)果,分別為 S1, S2…. Sn,其中 S1 表示最小的尺度,并依次遞增。每個(gè) Si 表示在某個(gè)特定尺度的所有文本實(shí)例的分割掩膜圖;
4. 使用漸進(jìn)式尺度擴(kuò)展的方式逐漸擴(kuò)展 S1 中每個(gè)文本行實(shí)例的 kernels,直到 Sn,得到最終的檢測(cè)結(jié)果。具體的網(wǎng)絡(luò)結(jié)構(gòu)如下:
漸進(jìn)式尺度擴(kuò)展的具體步驟(該步驟是結(jié)合下述示例圖來進(jìn)行闡述的):
1. 給定網(wǎng)絡(luò)的輸出集合 S1, S2…Sn,對(duì)于最小尺度 S1,包含 4 個(gè)明顯的 connected components 為 C = (c1, c2, c3, c4),用于初始化;通過對(duì)當(dāng)前 S1 求連通域,并結(jié)合對(duì)應(yīng)的源圖像,得到不同顏色的文字塊(就是論文中說的 kernels),這里用不同的顏色表示不同的文本行實(shí)例,這樣就獲得了每個(gè)文本行實(shí)例的中心部分;
2. 通過漸進(jìn)式尺度擴(kuò)展方法(文中采用的是廣度優(yōu)先搜索算法)依次合并 S2,S3,….Sn,直到網(wǎng)絡(luò)的輸出集合全部合并完畢;
3. 提取圖像中不同顏色的區(qū)域,得到最終的文本行。漸進(jìn)式尺度擴(kuò)展的步驟示例圖如下:
關(guān)于訓(xùn)練標(biāo)簽生成,因?yàn)?PSENet 輸出的包含了不同尺度的分割結(jié)果 S1, S2, …Sn,要想生成這些不同“kernels”的分割圖就必須生成對(duì)訓(xùn)練的 ground truths。
在實(shí)際操作中,可以通過 shrinking 操作來生成對(duì)應(yīng)的 ground truths label。如下圖所示:藍(lán)色多邊形是原始標(biāo)注的文本行的 ground truths,它對(duì)應(yīng)的是最大的掩膜圖。
為了生成其它不同的“kernels”,這里通過圖像多邊形裁剪算法(Vatti clipping algorithm)來每次向內(nèi)收縮 di 個(gè)像素得到對(duì)應(yīng)收縮后的 pi(具體計(jì)算公式詳見論文)。注意這里收縮是在 mask 操作上進(jìn)行的,所以所有的 ground truths 都是二值圖像。
檢測(cè)結(jié)果如下:
PMTD
本文是商湯和香港中文大學(xué)聯(lián)合發(fā)表并于 2019.03.28 掛在 arXiv 上,本文的方法在 ICDAR2017 MIT 數(shù)據(jù)集上,相比于之前最高的精確率提升了 5.83% 百分點(diǎn),達(dá)到 80.13%;在 ICDAR2015 數(shù)據(jù)集上,提升了 1.34% 個(gè)百分點(diǎn),達(dá)到 89.33%。
論文主要思想?
本文提出了 Pyramid Mask 文本檢測(cè)器,簡(jiǎn)稱 PMTD。它主要做了如下工作:
1. 提出了軟語義分割的訓(xùn)練數(shù)據(jù)標(biāo)簽。與現(xiàn)有的基于 Mask RCNN 方法(文本區(qū)域內(nèi)的像素標(biāo)簽為 0 或 1)不同,本文針對(duì)文本區(qū)域和背景區(qū)域提出了軟語義分割(soft semantic segmentation),文本行區(qū)域內(nèi)的像素標(biāo)簽值范圍在 0-1 之間,不同位置的像素標(biāo)簽值是由其當(dāng)前位置到文本邊界框的距離決定的,這樣做的好處是可以考慮訓(xùn)練數(shù)據(jù)的形狀和位置信息,同時(shí)可以一定程度上緩解文本邊界區(qū)域的一些背景干擾;
2. 提出通過平面聚類的方法構(gòu)建最終的文本行。通過像素坐標(biāo)及對(duì)應(yīng)像素點(diǎn)的得分構(gòu)建 3D 點(diǎn)集合,然后通過金字塔平面聚類的迭代方法得到最終的文本行。
文中做了兩個(gè)實(shí)驗(yàn):baseline 和 PMTD。baseline 是基于 Mask RCNN 的,主干提取特征網(wǎng)絡(luò)采用的是 ResNet50,網(wǎng)絡(luò)結(jié)構(gòu)采用了 FPN。相比原生的 Mask RCNN,做了 3 方面修改:1)數(shù)據(jù)增廣;2)RPN anchor;3)OHEM。具體的修改細(xì)節(jié)詳見論文。
那么 baseline 存在什么問題呢?
1. 沒有考慮普通文本一般是四邊形,僅按照像素進(jìn)行分類,丟失了與形狀相關(guān)的信息;
2. 將文本行的四邊形的標(biāo)定轉(zhuǎn)換為像素級(jí)別的 groundtruth 會(huì)造成 groundtruth 不準(zhǔn)的問題;
3. 在 Mask R-CNN 中是先得到檢測(cè)的框,然后對(duì)框內(nèi)的物體進(jìn)行分割,如果框的位置不準(zhǔn)確,這樣會(huì)導(dǎo)致分割出來的結(jié)果也不會(huì)準(zhǔn)確。
PMTD 是針對(duì) baseline 中存在的問題提出的改進(jìn),主要包括:
1. 網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn):PMTD 采用了更大的感受野來獲取更高的準(zhǔn)確率,為了獲取更大的感受野,本文通過改變 mask 分支,將該分支中的前 4 個(gè)卷積層改成步長(zhǎng)為 2 的空洞卷積,因?yàn)榉淳矸e操作會(huì)帶來棋盤效應(yīng),所以這里采用雙線性采樣+卷積層來替換反卷積層;
2. 對(duì)于訓(xùn)練標(biāo)簽生成部分,使用了金字塔標(biāo)簽生成,具體做法是:文本行的中心點(diǎn)為金字塔的頂點(diǎn)(score=1),文本行的邊為金字塔的底邊,對(duì)金字塔的每個(gè)面中應(yīng)該包含哪些像素點(diǎn)采用雙線性插值的方法。
那么如何得到最終的文本行呢?文中使用了平面聚類的方法,用于迭代回歸從已學(xué)習(xí)到的 soft text mask 尋找最佳的文本行的邊界框。在具體操作時(shí),可以看成與金字塔標(biāo)簽生成的反過程。
點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?
CVPR 2019 | 基于池化技術(shù)的顯著性目標(biāo)檢測(cè)
CVPR 2019 | 實(shí)體零售場(chǎng)景下密集商品的精確探測(cè)
CVPR 2019 | STGAN: 人臉高精度屬性編輯模型
CVPR 2019 | 天秤座R-CNN:全面平衡的目標(biāo)檢測(cè)
CVPR 2019 | 基于高清表示網(wǎng)絡(luò)的人體姿態(tài)估計(jì)
免費(fèi)中文深度學(xué)習(xí)全書:理論詳解加代碼分析
目標(biāo)檢測(cè)小tricks之樣本不均衡處理
小米拍照黑科技:基于NAS的圖像超分辨率算法
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢? 答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
??來稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
?
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 訪問作者專欄
總結(jié)
以上是生活随笔為你收集整理的论文盘点:CVPR 2019 - 文本检测专题的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 商汤 AI TECH DAY丨见大咖、拿
- 下一篇: 震撼来袭 | 人工智能Paper精读班,