【每周CV论文】深度学习文本检测与识别入门必读文章
歡迎來到《每周CV論文推薦》。在這個專欄里,還是本著有三AI一貫的原則,專注于讓大家能夠系統性完成學習,所以我們推薦的文章也必定是同一主題的。
文本檢測和識別是計算機視覺的一個非常重要的應用,今天給大家推薦初入該領域可以讀的文章。
作者&編輯 | 言有三
1 CTPN
文本與一般的目標有區別,比如沒有精確而閉合的邊緣,單個字符目標窄,但是整體文本串又較長。針對這個特點,研究者提出CTPN框架(Connectionist Text Proposal Network),通過檢測行方向上寬度固定的文本提高定位精度,然后對相鄰行進行合并來獲取檢測結果。
文章引用量:300+
推薦指數:?????
[1] Tian Z, Huang W, He T, et al. Detecting Text in Natural Image with Connectionist Text Proposal Network[C]? ? . european conference on computer vision, 2016: 56-72.
2 TextBoxes
針對文本行一般比較長的特點,TextBoxes對SSD框架中的Default Box的長寬比以及卷積核的大小進行了相應的改變,本質上依舊是使用SSD框架進行檢測。
文章引用量:150+
推薦指數:?????
[2] Liao M, Shi B, Bai X, et al. TextBoxes: a fast text detector with a single deep neural network[C]. national conference on artificial intelligence, 2017: 4161-4167.
3 R2CNN
與大部分目標檢測問題的一個顯著不同就是,文本往往是有傾斜方向的,因此檢測結果框如果沒有方向就不夠精確,R2CNN框架即Rotational Region CNN,就是將最后的檢測box定義為一個帶方向的box,另外也會同時預測一個無方向(即水平)的框來包包裹有方向的box。
文章引用量:150+
推薦指數:?????
[3] Jiang Y, Zhu X, Wang X, et al. R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection.[J]. arXiv: Computer Vision and Pattern Recognition, 2017.
4 EAST
EAST是一個基于DenseBox的旋轉文本檢測框架,不過與R2CNN的不同之處在于,它不是在最終box回歸的時候輸出旋轉框,而是使用了多個通道來預測旋轉信息,比如4個通道預測邊界距離,一個通道預測旋轉角度。
文章引用量:300+
推薦指數:?????
[4]?Zhou X, Yao C, Wen H, et al. EAST: An Efficient and Accurate Scene Text Detector[C]. computer vision and pattern recognition, 2017: 2642-2651.
5 RRPN
RRPN是一個基于Faster RCNN框架的旋轉文本檢測框架,與R2CNN和EAST不同的是,它采用了帶方向的Region Proposal和RoI Pooling,因此本身就可以輸出帶方向的目標框。
文章引用量:200+
推薦指數:?????
[5] Ma J, Shao W, Ye H, et al. Arbitrary-Oriented Scene Text Detection via Rotation Proposals[J]. IEEE Transactions on Multimedia, 2018, 20(11): 3111-3122.
6?SegLink
文本有的時候非常的長,anchor box不一定能夠很好覆蓋,SegLink基于SSD目標檢測方法進行改進。首先檢測局部片段,然后通過規則將所有的片段進行連接,得到最終的文本行,這樣做的好處是可以檢測任意長度的文本行。
文章引用量:150+
推薦指數:?????
[6]?Shi B, Bai X, Belongie S, et al. Detecting Oriented Text in Natural Images by Linking Segments[C]. computer vision and pattern recognition, 2017: 3482-3490.
7??CRNN
CRNN是一個端到端的文本識別框架,它輸入整段的文本圖片。CRNN使用CNN進行特征提取,RNN進行隱藏狀態和空間特征建模,CTC用于對RNN的結果進行整合改進。
文章引用量:600+
推薦指數:?????
[7] Shi B, Bai X, Yao C, et al. An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2298-2304.
8 綜述
最后,如果你想快速了解整個領域的發展現狀,可以閱讀相關的綜述文章[8-9]。
[8] 王潤民, 桑農, 丁丁,等. 自然場景圖像中的文本檢測綜述[J]. 自動化學報, 2018, 044(012):2113-2141.
[9]?Long S, He X, Yao C, et al. Scene Text Detection and Recognition: The Deep Learning Era.[J]. arXiv: Computer Vision and Pattern Recognition, 2018.
總結
本次我們介紹了初學文本檢測和識別值得讀的文章,另外當前文本檢測和識別的研究難點在于任意形狀文本檢測,多語言文本識別,端到端檢測與識別等方向,讀者可以繼續關注。
有三AI知識星球
知識星球是有三AI的付費內容社區,里面包括各領域的模型學習,數據集下載,公眾號的付費圖文原稿,技術總結PPT和視頻,知識問答,書籍下載,項目推薦,線下活動等資源,了解詳細請閱讀以下文章:
【雜談】有三AI知識星球一周年了!為什么公眾號+星球才是完整的?
【雜談】萬萬沒想到,有三還有個保密的‘朋友圈’,那里面都在弄啥!
轉載文章請后臺聯系
侵權必究
往期精選
【每周論文推薦】 初入深度學習CV領域必讀的幾篇文章
【每周CV論文推薦】 掌握殘差網絡必讀的10多篇文章
【每周CV論文推薦】 初學者必須精讀的5篇深度學習優化相關文章
【每周CV論文推薦】 CV領域中數據增強相關的論文推薦
【每周CV論文推薦】 初學高效率CNN模型設計應該讀的文章
【每周CV論文推薦】 初學目標檢測必須要讀的文章
【每周CV論文推薦】 初學深度學習圖像分割必須要讀的文章
【每周CV論文推薦】 初學GAN必須要讀的文章
【每周CV論文推薦】 深度學習人臉檢測入門必讀文章
【每周CV論文推薦】 初學深度學習人臉關鍵點檢測必讀文章
【每周CV論文推薦】 初學深度學習人臉識別和驗證必讀文章
【每周CV論文推薦】 初學深度學習人臉屬性分析必讀的文章
【每周CV論文推薦】 初學活體檢測與偽造人臉檢測必讀的文章
【每周CV論文推薦】 初學深度學習單張圖像三維人臉重建需要讀的文章
【每周CV論文推薦】 人臉識別剩下的難題:從遮擋,年齡,姿態,妝造到親屬關系,人臉攻擊
總結
以上是生活随笔為你收集整理的【每周CV论文】深度学习文本检测与识别入门必读文章的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【杂谈】爬虫基础与快速入门指南
- 下一篇: 【AutoML】进化算法如何用于自动模型