云从科技 OCR任务 pixel-anchor 方法
文章導讀
?
Pixel-Anchor這套文本檢測框架,和目前主流的文本檢測框架相比,提出了兩個大的改進點:
第一點是提出了把像素級別的圖像語義分割以及基于錨的檢測回歸方法高效融合在一起,可端到端訓練的檢測網絡。在該網絡中,像素級別的圖像語義分割以及基于錨的檢測回歸方法共享基礎特征,而像素級別的圖像語義分割結果作為一種注意力機制,用以監督錨檢測回歸的執行過程,在有效保證文本檢出率的同時,提升了文本檢測的精度。
總體框架見上圖,Pixel-Anchor采用學術界通用的ResNet-50作為特征提取主干網絡,提取出1/4,1/8,1/16的特征圖作為像素級別語義分割模塊(Figure 5)以及錨檢測回歸模塊(Figure 6)的基礎特征,同時語義分割模塊的輸出結果以熱力圖的形式注入到錨檢測回歸模塊中。整個網絡簡單輕巧,可通過ADAM優化方法進行端到端的訓練。
第二點是在錨檢測回歸這個模塊中引入了自適應預測層“Adaptive Predictor Layer”,該預測層連接在不同層級的特征圖之后,根據各特征圖感受野的不同,調整錨的長寬比,卷積核的形狀以及錨的空間密度(anchor density,見Figure 7),用以高效的獲得各特征圖上的文本檢測結果,進而對文本長度的變化獲得更好的適應性。自適應預測層在檢測水平長文本上的性能非常出色,和經典的CTPN方法相比,我們的方法不需要復雜的后處理,更魯棒的同時效率更高。
鏈接:https://zhuanlan.zhihu.com/p/50401761總結
以上是生活随笔為你收集整理的云从科技 OCR任务 pixel-anchor 方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Android上的滤镜效果
- 下一篇: Qt 自定义tablewidget(背景