當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

论文盘点：CVPR 2019 - 文本检测专题

發(fā)布時(shí)間：2024/10/8 编程问答 33 豆豆

生活随笔收集整理的這篇文章主要介紹了论文盘点：CVPR 2019 - 文本检测专题小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

作者丨燕小花?

研究方向丨計(jì)算機(jī)視覺

CRAFT

論文主要思想?

本文的主要思路是先檢測(cè)單個(gè)字符（character region score）及字符間的連接關(guān)系（affinity score），然后根據(jù)字符間的連接關(guān)系確定最終的文本行，簡(jiǎn)稱 CRAFT。

其網(wǎng)絡(luò)結(jié)構(gòu)與 EAST 的網(wǎng)絡(luò)結(jié)構(gòu)相似：特征提取主干網(wǎng)絡(luò)部分采用的是 VGG-16 with batch normalization；特征 decode 模塊與 U-Net 相似，也是采用自頂向下的特征聚合方式；網(wǎng)絡(luò)最終輸出兩個(gè)通道特征圖，即 region score map 和 affinity score map，具體的網(wǎng)絡(luò)結(jié)構(gòu)圖如下：

對(duì)于訓(xùn)練標(biāo)簽生成，與以往分割圖（以二值化的方式離散標(biāo)記每個(gè)像素的 label）的生成方式不同，本文采用高斯熱度圖來生成 region score 和 affinity score。文中說采用高斯熱度圖的好處是它能很好地處理沒有嚴(yán)格包圍的邊界區(qū)域。

對(duì)于 character region score 標(biāo)簽生成，由于對(duì) bbox 中的每個(gè)像素計(jì)算高斯分布值比較耗時(shí)，本文結(jié)合透視變換，采用了近似估計(jì)的方法來生成標(biāo)簽，具體步驟如下：a). 準(zhǔn)備一個(gè)二維的高斯圖；b). 計(jì)算高斯圖區(qū)域和每個(gè)文字框的透視變換；c). 將高斯圖變換到文字框區(qū)域。

而對(duì)于 character affinity score 標(biāo)簽生成，先畫出每個(gè)字符框的對(duì)角線；再取每個(gè)文本對(duì)角線的上下兩個(gè)三角形的中心點(diǎn)，將緊挨著的兩個(gè)文本框中的中心點(diǎn)相連，得到 affinity score（即下圖中的紅色框）。

這樣的標(biāo)簽生成可以使模型在較小感受野的情況下，也可以有效地檢測(cè)很大很長(zhǎng)的文本實(shí)例，同時(shí)使得模型只關(guān)注單個(gè)字符與字符間的聯(lián)系，不需要關(guān)注整個(gè)文本行。

CRAFT 可以用于處理任意方向文本、曲線文本、畸變文本等。該方法具有如下特性：

1. 對(duì)尺度變換具有較好地魯棒性，本文都是基于單尺度圖像進(jìn)行實(shí)驗(yàn)的；

2. 本文模型不能適用與粘連的語言，如 Bangla and Arabic characters；

3. 相比于端到端的文本檢測(cè)方法，該方法在訓(xùn)練的時(shí)候也借助了文本長(zhǎng)度（因?yàn)樵谟?xùn)練過程中對(duì)于合成樣本可以很好地進(jìn)行單個(gè)字符的標(biāo)注，但是對(duì)于現(xiàn)有的文本數(shù)據(jù)庫，其標(biāo)注方式基本是基于文本行的，所以文中通過借助文本行長(zhǎng)度來進(jìn)行弱監(jiān)督訓(xùn)練）；

4. 泛化能力較強(qiáng)。

LOMO

論文主要思想?

受限與 CNN 的感受野的及文本行的表征方式（bbox 或四邊形），長(zhǎng)文本行與曲線文本的檢測(cè)仍存在極大的挑戰(zhàn)。針對(duì)此，本文提出了 LOMO (Look More Than Once)，它由三部分組成：直接回歸模塊（DR）、迭代修正模塊（IRM）、形狀表征模塊（SEM）。

首先由直接回歸模塊產(chǎn)生粗略的四邊形表征的候選文本框；接著在提取的特征圖上通過迭代修正得到完整的長(zhǎng)文本行的四邊形表征；最后通過結(jié)合文本行區(qū)域、文本行中心線及文本行邊界偏移得到最終的文本行。具體的框架圖如下：

對(duì)于直接回歸模塊，文中參考了 EAST，這里就不詳細(xì)解釋了。對(duì)于迭代修正模塊（IRM），使用了 RoI transform 層來提取四邊形文本行的特征塊，之所以沒有使用 RoI Pooling 或 RoI Align，是因?yàn)?#xff1a;

1. RoI transform 在提取四邊形文本行對(duì)應(yīng)的特征塊時(shí)，保持寬高比不變；

2. 在相同感受野的情況下，文本行的四個(gè)角點(diǎn)可以為文本行的邊界提供更加精確的信息。

因此在回歸四個(gè)角點(diǎn)的時(shí)候，本文引入了角點(diǎn)注意力機(jī)制。對(duì)于形狀表征模塊（SEM），回歸了文本行的三種幾何屬性：文本行區(qū)域、文本行中心線及文本行邊界偏移。

其中文本行區(qū)域是一個(gè)二值 mask，文字區(qū)域用 1 表示，背景區(qū)域用 0 表示；文本行中心線也是一個(gè)二值 mask，它是文本行多邊形標(biāo)注的一個(gè)向內(nèi)收縮的版本（具體看 EAST）；邊界偏移是 4 通道的 feature map。

對(duì)于文本行多邊形生成，具體步驟如下：

1. 文本中心線采樣：文中采用了 n 個(gè)等間距的方式對(duì)文本行中心線進(jìn)行采樣。對(duì)于曲線文本（多邊形標(biāo)注的），n=7；對(duì)于其它數(shù)據(jù)集（四邊形標(biāo)注的，如ICDAR2015,ICDAR2017 等），n=2；

2. 邊界點(diǎn)生成：基于已采樣的文本中心線，結(jié)合相同位置的 4 個(gè)角點(diǎn)的偏移 maps，得到文本行的邊界點(diǎn)，然后順時(shí)針連接這些角點(diǎn)，就可以得到文本行的完整表征；

3. 多邊形得分：文中將多邊形區(qū)域內(nèi)的文本行響應(yīng)均值作為最終的文本行得分。

▲?圖中黃色表示ground truth；藍(lán)色框是DR模塊的輸出；綠色框是IRM模塊的輸出；紅色框是SEM模塊的輸出。

LSAE

論文主要思想

本文的主要思想是將文本檢測(cè)當(dāng)做一種實(shí)例分割，采用了基于分割框架來進(jìn)行檢測(cè)。具體的做法是將每個(gè)文本行看成一個(gè)連通區(qū)域，為了更好地區(qū)分不同文本實(shí)例（即挨得很近的文本或者是很大很長(zhǎng)的文本），本文提出了將圖像像素映射到嵌入特征空間中，在該空間中，屬于同一文本實(shí)例的像素會(huì)更加接近彼此，反之不同文本實(shí)例的像素將會(huì)遠(yuǎn)離彼此。

特征提取主干網(wǎng)絡(luò)采用的是 ResNet-50，接著使用兩個(gè)對(duì)稱的特征融合模塊（即兩個(gè)對(duì)稱的特征金字塔，這里合并的策略與 PANet 中的自適應(yīng)特征池化相似），一個(gè)用于后續(xù)的嵌入分支（Embedding branch），另一個(gè)用于后續(xù)的分割分支（文本行前景圖，包括全文本行前景圖和向內(nèi)收縮后的文本行前景圖）。

通過權(quán)重共享，使得兩個(gè)任務(wù)優(yōu)勢(shì)互補(bǔ)。網(wǎng)絡(luò)輸出包括嵌入特征圖和文本行前景掩膜圖，然后經(jīng)過后處理得到最終的預(yù)測(cè)文本行。總體網(wǎng)絡(luò)結(jié)構(gòu)如下圖：

為什么要使用嵌入形狀感知？1）相比與通用的目標(biāo)檢測(cè)，文本檢測(cè)更難根據(jù)邊界確定兩個(gè)挨的很近的文本實(shí)例；2）文本行的寬高比變化太大，如從單個(gè)文字到整個(gè)文本行。

文中針對(duì)該分支提出了 Shape-Aware Loss損失函數(shù)，它包括兩部分的損失：方差損失和距離損失，該損失函數(shù)用于區(qū)分嵌入特征空間中的不同文本實(shí)例。具體的計(jì)算公式如下：

對(duì)于最終文本行的構(gòu)建：論文中通過結(jié)合嵌入特征圖，Full Map，Center Map 三種特征圖來進(jìn)行聚類，得到最終的文本行。

具體的聚類步驟如下：首先使用 DBSCAN 聚類算法得到兩個(gè)聚類集合：Full Map 的和 Center Map 的；接著對(duì)在 Full Map 內(nèi) Center Map 外的像素進(jìn)行簇類劃分，這里劃分的規(guī)則是根據(jù)嵌入空間中當(dāng)前像素的嵌入距離到每個(gè)簇類平均嵌入距離，若小于指定的閾值，則該像素歸于當(dāng)前簇類；反之，亦然。接著通過上述遞歸，得到新的簇類集合，然后對(duì)每個(gè)簇類集合采用最小外接矩形框最為最終的文本行檢測(cè)框。

為什么不直接在嵌入空間中使用聚類？直接使用嵌入空間進(jìn)行聚類，并不能很好地區(qū)分不同的文本實(shí)例。

PSENet

論文主要思想?

形狀魯棒性文本檢測(cè)存在以下挑戰(zhàn)：1）現(xiàn)有的文本檢測(cè)是基于四邊形或旋轉(zhuǎn)矩形，很難將任意形狀的文本(特別是形狀文本)進(jìn)行包閉操作；2）大多數(shù)基于像素分割的方法不能很好地區(qū)分非常鄰近的文本實(shí)例。

針對(duì)上述問題，本論文提出了基于語義分割的單文本實(shí)例多預(yù)測(cè)方法（簡(jiǎn)稱 PSENet），它采用了前向漸進(jìn)式尺度擴(kuò)展的方法用來區(qū)分鄰近的文本實(shí)例，可用于檢測(cè)任意方向的文本。

PSENet 沿用了特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)（簡(jiǎn)稱 FPN），并在此基礎(chǔ)上增加了特征融合和漸進(jìn)式尺度擴(kuò)展的方式來實(shí)現(xiàn)自然場(chǎng)景中文本行的檢測(cè)。具體步驟如下：

1. 先沿用 FPN 中的網(wǎng)絡(luò)結(jié)構(gòu)作為特征提取主干網(wǎng)絡(luò)，提取 4 個(gè) feature maps（低維度和高維度特征連接在一起），分別為 P2, P3, P4, P5；

2. 將上述提取的特征進(jìn)行融合得到 F，F 中包含了不同感受野的信息，對(duì)應(yīng)融合操作為：

融合后 F 的通道數(shù)為 256×4 = 1024 ；

3. 將融合后的 F 送入 Conv3-BN-ReLu 層（得到 256 個(gè)通道），然后再經(jīng)過 Conv1-Up-Sigmoid 層產(chǎn)生 n 個(gè)分支，生成不同的分割結(jié)果，分別為 S1, S2…. Sn，其中 S1 表示最小的尺度，并依次遞增。每個(gè) Si 表示在某個(gè)特定尺度的所有文本實(shí)例的分割掩膜圖；

4. 使用漸進(jìn)式尺度擴(kuò)展的方式逐漸擴(kuò)展 S1 中每個(gè)文本行實(shí)例的 kernels，直到 Sn，得到最終的檢測(cè)結(jié)果。具體的網(wǎng)絡(luò)結(jié)構(gòu)如下：

漸進(jìn)式尺度擴(kuò)展的具體步驟（該步驟是結(jié)合下述示例圖來進(jìn)行闡述的）：

1. 給定網(wǎng)絡(luò)的輸出集合 S1, S2…Sn，對(duì)于最小尺度 S1，包含４個(gè)明顯的 connected components 為 C = (c1, c2, c3, c4)，用于初始化；通過對(duì)當(dāng)前 S1 求連通域，并結(jié)合對(duì)應(yīng)的源圖像，得到不同顏色的文字塊（就是論文中說的 kernels），這里用不同的顏色表示不同的文本行實(shí)例，這樣就獲得了每個(gè)文本行實(shí)例的中心部分；

2. 通過漸進(jìn)式尺度擴(kuò)展方法（文中采用的是廣度優(yōu)先搜索算法）依次合并 S2，S3，….Sn，直到網(wǎng)絡(luò)的輸出集合全部合并完畢；

3. 提取圖像中不同顏色的區(qū)域，得到最終的文本行。漸進(jìn)式尺度擴(kuò)展的步驟示例圖如下：

關(guān)于訓(xùn)練標(biāo)簽生成，因?yàn)?PSENet 輸出的包含了不同尺度的分割結(jié)果 S1, S2, …Sn，要想生成這些不同“kernels”的分割圖就必須生成對(duì)訓(xùn)練的 ground truths。

在實(shí)際操作中，可以通過 shrinking 操作來生成對(duì)應(yīng)的 ground truths label。如下圖所示：藍(lán)色多邊形是原始標(biāo)注的文本行的 ground truths，它對(duì)應(yīng)的是最大的掩膜圖。

為了生成其它不同的“kernels”，這里通過圖像多邊形裁剪算法（Vatti clipping algorithm）來每次向內(nèi)收縮 di 個(gè)像素得到對(duì)應(yīng)收縮后的 pi（具體計(jì)算公式詳見論文）。注意這里收縮是在 mask 操作上進(jìn)行的，所以所有的 ground truths 都是二值圖像。

檢測(cè)結(jié)果如下：

PMTD

本文是商湯和香港中文大學(xué)聯(lián)合發(fā)表并于 2019.03.28 掛在 arXiv 上，本文的方法在 ICDAR2017 MIT 數(shù)據(jù)集上，相比于之前最高的精確率提升了 5.83% 百分點(diǎn)，達(dá)到 80.13%；在 ICDAR2015 數(shù)據(jù)集上，提升了 1.34% 個(gè)百分點(diǎn)，達(dá)到 89.33%。

論文主要思想?

本文提出了 Pyramid Mask 文本檢測(cè)器，簡(jiǎn)稱 PMTD。它主要做了如下工作：

1. 提出了軟語義分割的訓(xùn)練數(shù)據(jù)標(biāo)簽。與現(xiàn)有的基于 Mask RCNN 方法（文本區(qū)域內(nèi)的像素標(biāo)簽為 0 或 1）不同，本文針對(duì)文本區(qū)域和背景區(qū)域提出了軟語義分割（soft semantic segmentation），文本行區(qū)域內(nèi)的像素標(biāo)簽值范圍在 0-1 之間，不同位置的像素標(biāo)簽值是由其當(dāng)前位置到文本邊界框的距離決定的，這樣做的好處是可以考慮訓(xùn)練數(shù)據(jù)的形狀和位置信息，同時(shí)可以一定程度上緩解文本邊界區(qū)域的一些背景干擾；

2. 提出通過平面聚類的方法構(gòu)建最終的文本行。通過像素坐標(biāo)及對(duì)應(yīng)像素點(diǎn)的得分構(gòu)建 3D 點(diǎn)集合，然后通過金字塔平面聚類的迭代方法得到最終的文本行。

文中做了兩個(gè)實(shí)驗(yàn)：baseline 和 PMTD。baseline 是基于 Mask RCNN 的，主干提取特征網(wǎng)絡(luò)采用的是 ResNet50，網(wǎng)絡(luò)結(jié)構(gòu)采用了 FPN。相比原生的 Mask RCNN，做了 3 方面修改：1）數(shù)據(jù)增廣；2）RPN anchor；3）OHEM。具體的修改細(xì)節(jié)詳見論文。

那么 baseline 存在什么問題呢？

1. 沒有考慮普通文本一般是四邊形，僅按照像素進(jìn)行分類，丟失了與形狀相關(guān)的信息；

2. 將文本行的四邊形的標(biāo)定轉(zhuǎn)換為像素級(jí)別的 groundtruth 會(huì)造成 groundtruth 不準(zhǔn)的問題；

3. 在 Mask R-CNN 中是先得到檢測(cè)的框，然后對(duì)框內(nèi)的物體進(jìn)行分割，如果框的位置不準(zhǔn)確，這樣會(huì)導(dǎo)致分割出來的結(jié)果也不會(huì)準(zhǔn)確。

PMTD 是針對(duì) baseline 中存在的問題提出的改進(jìn)，主要包括：

1. 網(wǎng)絡(luò)結(jié)構(gòu)的改進(jìn)：PMTD 采用了更大的感受野來獲取更高的準(zhǔn)確率，為了獲取更大的感受野，本文通過改變 mask 分支，將該分支中的前 4 個(gè)卷積層改成步長(zhǎng)為 2 的空洞卷積，因?yàn)榉淳矸e操作會(huì)帶來棋盤效應(yīng)，所以這里采用雙線性采樣＋卷積層來替換反卷積層；

2. 對(duì)于訓(xùn)練標(biāo)簽生成部分，使用了金字塔標(biāo)簽生成，具體做法是：文本行的中心點(diǎn)為金字塔的頂點(diǎn)（score=1），文本行的邊為金字塔的底邊，對(duì)金字塔的每個(gè)面中應(yīng)該包含哪些像素點(diǎn)采用雙線性插值的方法。

那么如何得到最終的文本行呢？文中使用了平面聚類的方法，用于迭代回歸從已學(xué)習(xí)到的 soft text mask 尋找最佳的文本行的邊界框。在具體操作時(shí)，可以看成與金字塔標(biāo)簽生成的反過程。

點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容：?

CVPR 2019 | 基于池化技術(shù)的顯著性目標(biāo)檢測(cè)
CVPR 2019 | 實(shí)體零售場(chǎng)景下密集商品的精確探測(cè)
CVPR 2019 | STGAN: 人臉高精度屬性編輯模型
CVPR 2019 | 天秤座R-CNN：全面平衡的目標(biāo)檢測(cè)
CVPR 2019 | 基于高清表示網(wǎng)絡(luò)的人體姿態(tài)估計(jì)
免費(fèi)中文深度學(xué)習(xí)全書：理論詳解加代碼分析
目標(biāo)檢測(cè)小tricks之樣本不均衡處理
小米拍照黑科技：基于NAS的圖像超分辨率算法

#投稿通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？ 答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來。

??來稿標(biāo)準(zhǔn)：

? 稿件確系個(gè)人原創(chuàng)作品，來稿需注明作者個(gè)人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會(huì)添加“原創(chuàng)”標(biāo)志

? 投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式（微信或手機(jī)），以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

▽ 點(diǎn)擊 |?閱讀原文?| 訪問作者專欄

總結(jié)

以上是生活随笔為你收集整理的论文盘点：CVPR 2019 - 文本检测专题的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：商汤 AI TECH DAY丨见大咖、拿
下一篇：震撼来袭 | 人工智能Paper精读班，