【文本图像超分辨】Scene Text Image Super-Resolution in the Wild
引言
這是一篇最新發出來的論文,看樣子要投NIPS2020,這個論文可以看作我以前介紹過的TextSR的升級版,兩個作者都是同一個人。這篇論文的主要想法就是提出一個專門用來進行文本超分辨的數據集,并且提出了一個專門用來進行文本超分辨的網絡。
Scene Text Image Super-Resolution in the Wild
摘要
分辨率的文本圖像通常出現在自然場景中,如手機捕獲的文檔。識別低分辨率文本圖像具有挑戰性,因為它們丟失了詳細的內容信息,導致識別精度差。一個直觀的解決方案是引入超分辨率(SR)技術作為預處理。然而,以往的單圖像超分辨率(SISR)方法都是在合成的低分辨率圖像(如雙三次下采樣)上訓練的,這種方法簡單,不適合于真實的低分辨率文本識別。為此,我們提出了一個真實的場景文本SR數據集,稱為TextZoom。它包含一對真實的低分辨率和高分辨率圖像,這些圖像由野外不同焦距的相機拍攝。它比合成數據更真實、更具挑戰性,如圖1所示。我們認為提高場景文本SR的識別精度是其最終目標。為此,我們開發了一種新的文本超分辨率網絡TSRN,它具有三個新的模塊。(1) 提出了一種基于序列殘差塊的文本圖像序列信息提取方法。(2) 設計了一種邊界感知損失來銳化字符邊界。(3) 提出了一種中心對準模塊來解決文本縮放中的對準問題。在TextZoom上的大量實驗表明,與合成SR數據相比,TSRN大大提高了CRNN的13%以上,ASTER和MORAN的9.0%左右。此外,我們的TSRN在提高文本縮放中LR圖像的識別精度方面明顯優于7種最先進的SR方法。例如,它在ASTER和CRNN的識別精度上分別比LapSRN高5%和8%。我們的結果表明,低分辨率的文本識別在野外還遠未得到解決,因此需要更多的研究工作。
動機
貢獻
TextZoom數據集
我們提出的數據集TextZoom來自兩個最先進的SISR數據集:RealSR和SRRAW。我們的數據集中只有一些曲線文本圖像。對于每對LR-HR圖像,我們提供區分大小寫的字符串(包括標點符號)、邊框類型和原始焦距的注釋。在相同的高度下,焦距越小的圖像越模糊。考慮到這一點,我們很將數據集分為三個子集。
超分辨網絡模型
本節中,我們詳細介紹了我們提出的方法TSRN。首先,我們簡要介紹了我們的模塊。然后我們介紹了所提出的序列殘差塊。然后,介紹了我們的中心對準模塊。最后,我們引入一個新的梯度輪廓損失來銳化文本邊界。
我們的基線是SRResNet。我們主要對SRResNet的結構做了兩個修改:1)在網絡前增加一個中心對齊模塊 2)用提出的序列剩余塊(srb)替換原始基本塊。在這項工作中,我們將二值遮罩與RGB影像串連作為我們的輸入。二值掩模是通過計算圖像的平均灰度來生成的。訓練過程中,首先由中心對準模塊對輸入進行校正。然后利用CNN層從校正后的圖像中提取淺層特征。疊加5個srb,提取深度和順序相關特征,并按照ResNet[13]進行快捷連接。SR圖像最終由上采樣塊和CNN生成。我們還設計了一個梯度先驗損失(LGP)來增強字符的形狀邊界。網絡的輸出由MSELoss(L2)和我們提出的梯度剖面損失(LGP)來監督。
Sequential Residual Block
以往最先進的SR方法主要追求PSNR和SSIM的更好性能。傳統的SISR只關心紋理的再恢復,忽略上下文信息,而文本圖像具有很強的序列性。我們的最終目標是訓練一個能夠重建文本圖像上下文信息的SR網絡。首先,利用CNN進行特征提取。然后排列并調整特征地圖的大小,因為水平文本行可以編碼成序列。然后BLSTM可以傳播誤差差分,并將特征映射轉化為特征序列,并將其反饋給卷積層。為了使傾斜文本圖像的序列相關魯棒性,我們從水平和垂直兩個方向引入BLSTM。BLSTM以水平卷積和垂直卷積特征作為序列輸入,在隱藏層中反復更新其內部狀態。
Central Alignment Module
錯位會導致像素對像素的丟失,如l1和l2會產生明顯的偽影和雙陰影。這主要是由于訓練數據中像素的錯位。LR圖像中的一些文本像素空間所對應的是HR圖像背景像素,網絡可能會學習錯誤的像素對應信息。因此,我們引入STN作為我們的中心對準模塊。STN是一種能夠對圖像進行端到端校正和學習的空間變換網絡。由于大部分文本區域的錯位都是水平或垂直平移,所以我們采用仿射變換作為變換操作。一旦LR圖像中的文本區域與中心相鄰對齊,像素級的損失將使性能更好,并且可以消除偽影。
Gradient Profile Loss
已經有人提出了梯度輪廓先驗(GPP)算法,以在SISR任務中產生更尖銳的邊緣。隨后提出了梯度場的變換方法。該方法將梯度輪廓曲線按一定比例進行壓縮,并將圖像轉換為更清晰的圖像。這種方法是在深度學習時代之前提出的,因此它只會使梯度場的曲線更清晰,而不需要監督。
由于我們有一個成對的文本超分辨率數據集,我們可以使用HR圖像的梯度場作為ground truth。通常,文本圖像只包含兩種顏色:字符和背景。這意味著文本圖像中不存在復雜的紋理,我們只需要注意字符和背景之間的邊界。因此,更好的圖像質量意味著更清晰的邊界,而不是平滑的字符。當背景不是純色時,梯度場有時并不完全是背景和字符之間的邊界。但大多數樣例都能達到我們的目的,對我們的訓練很有用。
具有兩個優點:(1)梯度場生動地表現了文本圖像的特征:文本和背景。(2) LR圖像具有較寬的梯度場曲線,而HR圖像則具有較窄的梯度場曲線。通過數學計算可以方便地生成梯度場曲線。這確保了一個保密的監督。
LGP的可視化演示如上圖所示。利用HR圖像的梯度場,我們可以將梯度剖面曲線壓縮為較薄的曲線,而無需復雜的數學公式。
實驗
在訓練期間,我們將L2loss的權衡權重設置為1和LGP設為1e-4。我們使用動量項為0.9的Adam優化器。在評估識別精度時,我們使用ASTER的官方pytorch版本代碼。在補充材料中,我們使用了官方的pytorch代碼和發布的crnn和MORAN模型。所有的SR模型都由500個epoch和4個NVIDIA GTX 1080ti GPU訓練。批量大小根據原稿的設置而調整。
傳統的單輸入單輸出(SISR)任務是通過雙三次插值直接下采樣HR圖像生成相應的LR圖像。為了說明真實LR相對于合成LR的優越性,我們在雙三次下采樣LR圖像和真實LR圖像上訓練我們的模型以顯示性能。
我們選擇SRResNet、LapSRN和我們提出的TSRN方法,分別在2X模型的合成LR和真實LR數據集上訓練它們。我們總共訓練了6個模型,并在我們提出的TextZoom子集上對它們進行了評估。從表2可以看出,在真實LR(TextZoom)數據集上訓練的三種方法在精度上明顯優于在合成LR上訓練的模型。對于我們的TSRN,在真實LR上訓練的模型在ASTER和MORAN上可以超過合成LR近9.0%,在CRNN上可以超過合成LR近14.0%。
為了研究TSRN中各個組成部分的作用,我們逐步修改網絡的結構,并比較它們之間的差異,以建立一個最佳的網絡。為了簡潔起見,我們只比較ASTER[41]的準確性。
我們可以發現所提出的梯度剖面損失可以通過0.5%. 雖然增加很小,但是視覺效果更好(如下圖)。有了這個損失,一些扭曲形狀的字符會更顯式,如字符“e”“s”“f”。字符之間的邊界可以被計算出來
總結
以上是生活随笔為你收集整理的【文本图像超分辨】Scene Text Image Super-Resolution in the Wild的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: VS2017启动速度优化方法
- 下一篇: javascript 中怎么判断为数字类