分割文本_PSENet、PANNet、DBNet三个文本检测算法异同
點擊藍字關注我們
這三個文本檢測算法都是segment base算法,通過由下而上的方式,先對text進行segment,然后再根據segment text,計算出text的instance
PSENet
近年來,自然場景文本檢測在場景理解、產品識別、自動駕駛和目標定位等眾多應用中得到了廣泛的關注。然而,由于前景文本和背景對象的巨大差異,以及各種形狀、顏色、字體、方向和尺度的文本變化以及極端的照明和遮擋,自然場景中的文本檢測仍然面臨著相當大的挑戰。
然而,隨著卷積神經網絡(CNNs)?的飛速發展,近年來取得了很大的進展。基于包圍盒回歸(Bounding Box Regression)?的方法被提出了一組方法來成功地定位具有特定方向的矩形或四邊形形式的文本目標。不幸的是,這些框架無法檢測任意形狀的文本實例(例如曲線文本),這些文本實例也經常出現在自然場景中。自然,基于語義分割的方法可以顯式地處理曲線文本的檢測問題。?雖然像素分割可以提取任意形狀文本實例的區域,但當兩個文本實例相對接近時,仍然可能無法將它們分開,因為它們的共享相鄰邊界可能會將它們合并為一個單一文本實例。
語義分割(semantic segmentation)
圖像的語義分割,從字面意思上理解就是讓計算機根據圖像的語義來進行分割;在圖像領域,語義指的是圖像的內容,對圖片意思的理解。目前語義分割的應用領域主要有:地理信息系統、無人車駕駛、醫療影像分析、機器人等領域。具體的語義分割的簡介可以看大佬的博客——計算機視覺之語義分割:http://blog.geohey.com/ji-suan-ji-shi-jue-zhi-yu-yi-fen-ge/
實例分割(Instance Segmentation)
實例分割就是機器自動從圖像中用目標檢測方法框出不同實例,再用語義分割方法在不同實例區域內進行逐像素標記,借一個淺顯的說法:語義分割不區分屬于相同類別的不同實例,而實例分割可以區分出這些像素屬于同種類的不同物體。具體的實例分割可以看大佬的博客——實例分割總結?
Instance Segmentation Summary:
https://blog.csdn.net/qq_39295044/article/details/79796663
PSENet有兩方面的優勢。?首先,psenet作為一種基于分割的方法,能夠對任意形狀的文本進行定位.其次,我們提出了一種漸進的尺度擴展算法,該算法可以成功地識別相鄰文本實例。
具體地,我們將每個文本實例分配給多個預測的分割區域。為了方便起見,我們將這些分割區域表示為本文中的“核”,并且對于一個文本實例,有幾個對應的內核。每個內核與原始的整個文本實例共享相似的形狀,并且它們都位于相同的中心點但在比例上不同。為了得到最終的檢測結果,我們采用了漸進的尺度擴展算法。?它基于寬度優先搜索(BFS),?由三個步驟組成:1)從具有最小尺度的核開始(在此步驟中可以區分實例);2)通過逐步在較大的核中加入更多的像素來擴展它們的區域;3)完成直到發現最大的核。
PANNet
PANNet采用lightweight backbone resnet18提取特征,再通過級聯Feature Pyramid Enhancement Module (FPEM)模塊,添加該模塊在不太增加多少計算的情況下,使得不同的尺寸的特征可以更深,更有表達力,最后,通過Feature Fusion Module (FFM)模塊,融合不同深度的FPEM特征,得到最后用于語義分割的圖像。
FPEM模塊:PANNet的resnet18得到conv2,conv3,conv4,conv5的4個層特征圖(其中conv2,conv3,conv4,conv5為原圖的1/4,1/8,1/16,1/32),然后利用1X1的convolution,把resnet18的conv2,conv3,conv4,conv5特征圖的通道數減為128,得到四個尺寸由小到大通道數為128的特征金字塔,通過級聯n個FPEM模塊,得到n個金字塔特征。
FPEM包括兩個過程,都是U-shape,up-scale enhancement和down-scale enhancement,其中up-scale enhancement,小尺寸的特征通過線性放大兩倍,add到相應的特征上,再通過3X3 DWConv(一種小計算量的卷積)和1X1 conv,BN,Relu,得到融合的特征,down-scale enhancement,從up-scale enhancement得到的小尺寸特征通過線性放大兩倍,add到相應的特征上,然后再stride=2 的3X3 DWConv(一種小計算量的卷積)和1X1 conv,BN,Relu,得到融合的特征,輸出最終的特征金字塔。
FFM模塊 :該模塊就是融合由FPEM產生的n個金字塔特征,如下圖所示:
通過add相對應的n個金字塔特征,得到最后的金字塔特征,每個特征通道128,4層的金字塔總共512,最后通過upsample 不同尺寸的特征為原圖的1/4大小,最后concatenates所有的特征,作為語義分割特征。
DBNet
Real-time Scene Text Detection with Differentiable Binarization是華科白翔老師團隊發表在AAAI2020上的一篇文本檢測文章,在PAN的效果上更近一步,效果和性能都再創新高。
論文地址
https://arxiv.org/pdf/1911.08947.pdf
官方代碼
https://github.com/MhLiao/DB
當前由于文字檢測的數據集變得更加具有挑戰性,包含了各種任意形狀的文字,基于分割的文字檢測方法逐漸占據了主流。然而基于分割的方法往往要求復雜的網絡結構和后處理,很難在速度和性能上做到平衡。本文提出了可微分的二值化模塊,簡化了基于分割方法的文字檢測,在性能和速度上都獲得了不錯的效果。
? 基于分割的文字檢測方法往往會基于上圖中藍色箭頭線的流程,首先對全圖進行分割,然后基于人工設置的閾值對分割結果進行二值化,最后經過后處理得到文字區域。而該文的出發點在于將二值化的過程融入到整個網絡的訓練過程中進行端到端的優化及簡化后處理的過程。如上圖紅線所示,該文算法在訓練時不僅會預測出分隔圖,同時會預測出閾值圖,然后由二者進行二值化得到二值化mask。
首先前面的骨干網絡采用了類似于FPN和U-Net的思路將不同尺度的特征圖進行融合來讓最終進行回歸的特征圖獲得不同尺度的特征信息和感受野以處理不同尺寸大小的文字實例。接下來由骨干網絡輸出的特征圖回歸出一個分隔圖(P)以及一個閾值圖(T),然后由二者由可微分的二值化而得到二值化圖,最后在推理階段經過后處理得到文字區域。
智能衛星研究院
總結
以上是生活随笔為你收集整理的分割文本_PSENet、PANNet、DBNet三个文本检测算法异同的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: fastai学习——第一个bug
- 下一篇: 局域网中另外一台服务器的内存_局域网共享