TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响
?PaperWeekly 原創 ·?作者|李凱
學校|清華大學碩士生
研究方向|多模態機器學習、計算機視覺
?
概要
論文標題:
Deep High-Resolution Representation Learningfor Visual Recognition
論文鏈接:
https://arxiv.org/abs/1908.07919
代碼鏈接:
https://github.com/HRNet
這是一篇發表在 PAMI(2020)關于計算機視覺任務通用模型(HRNet [1])的文章。該文章指出在計算機視覺領域中不同分辨率對于結果起著至關重要的作用。而目前大部分的 backbone(ResNet [2],DenseNet [3],ResNest [4] 等)將圖像的分辨率逐漸變小,這對于一些需要精細信息的視覺任務會產生一定的影響,例如語義分割,目標檢測和人體姿態估計等。
本文的主要創新點是在整個模型計算的過程中始終保持著高分辨率,在并行連接高至低分辨率特征圖,在交互模塊中交換不同分辨率的特征信息。因此所得到的特征圖在語義上更豐富,并且在空間上更精確。
HRNet 在很多的計算機視覺任務中表現出很好的結果,包括人體姿勢估計,語義分割和目標檢測。這說明 HRNet 可以作為解決計算機視覺任務的 backbone。作者在論文中放出的開源的代碼目前已經獲得 11.4k 的 star。
?
HRNet模型結構
在文章中指出有不同的從低分辨率恢復高分辨率的結構。(1) 一種從高分辨率學習低分辨率特征圖的神經網絡(例如 VGGNet [5],ResNet和ResNet變體等)。(2) 一種下采樣后上采樣恢復高分辨率特征圖神經網絡,例如 U-Net ,Hourglass 等。
▲?圖1. HRNet的模型結構示意圖
這個網路主要包含三個部分:多分辨率并行支路,多分辨率并行支路融合模塊和特征圖結果輸出模塊。
多分辨率并行支路。首先將高分辨率卷積支路作為第一步,逐步將高至低分辨率支路逐個添加,形成新的階段,然后并行連接多分辨率支路。下一級并行支路的分辨率包括前一級的分辨率和一個較低的分辨率。
圖 1 所示的網絡結構包含 4 個并行流,邏輯上如下圖 2 所示。其中, 是第 s 階段的支路,r 是分辨率大小的索引。最大分辨率的分辨率索引為 1,第 r 的分辨率索引為最大分辨率支路的 倍。
▲ 圖2. HRNet邏輯結構示意圖
多分辨率融合模塊的目標是在多分辨率表示形式之間交換信息,如圖 3 所示。對于多分辨率融合包含上采樣,平級,下采樣。其中下采樣包括跨一層下采樣和多層下采樣。上采樣使用插值法,平級使用卷積,下采樣(如果支路大于 2,使用多個 stride>1 的卷積進行下采樣操作)。
▲?圖3. 多分辨率融合模塊的上采樣,下采樣。藍色模塊為上采樣過程,綠色模塊為下采樣過程。
Representation Head(特征圖結果輸出模塊)。在文章中提出了三種 Representation Head,如圖 4 所示,分別表示為 HRNetV1,HRNetV2 和 HRNetV2p。其中 HRNetV1 模型將應用于人體姿勢估計,HRNetV2 模型將應用于語義分割,HRNetV2p 模型應用于目標檢測的結果。
▲?圖4. 三種不同的Representation Head
HRNetV1。僅輸出高分辨率支路中的特征圖,而忽略其他三個支路特征圖。如圖 4 (a) 所示
HRNetV2。將不同分辨率支路的特征圖通過 concat 方式進行拼接作為輸出。如圖 4 (b) 所示
HRNetV2p。在 HRNetV2 的高分辨率表示的基礎上通過降采樣到多個級別來構建多級特征圖。如圖 4 (c) 所示
?
多分辨率并行卷積和多分辨率融合模塊的探究
▲?圖5. (a)多分辨率并行卷積,(b)多分辨率融合模塊,(c)普通卷積(左)等同于完全連接的多分支卷積(右)
多分辨率并行卷積類似于組卷積(Group convolution [6]),如圖 5 (a) 所示。它將輸入通道分為通道的幾個子集,并分別對不同空間分辨率的每個子集進行卷積操作。但是在組卷積中,不同子集之間的分辨率是相同的。這種并行卷積和組卷積的聯系意味著多分辨率并行卷積存在群卷積的某些好處。
多分辨率融合模塊類似于普通卷積的多分支全連接形式,如圖 5(c)所示。輸入通道分為幾個子集,輸出通道也分為幾個子集。輸入和輸出子集以完全連接的方式連接,并且每個連接都是普通卷積。
輸出通道的每個子集都是輸入通道的每個子集上的卷積輸出的總和。區別在于,HRNet 的多分辨率融合需要處理分辨率的變化。因此,HRNet 融合了更多的空間信息在多分辨率融合模塊。
?
實驗分析
在文章中做了三個不同任務的實驗分別為人體姿態估計,語義分割和目標檢測。
4.1 人體姿態估計實驗
對于人體姿態估計的實驗,HRNetV1 和 HRNetV2 的結果差不多且 HRNetV1 的計算復雜度更低,因此在該實驗中使用 HRNetV1 作為選用的模型。訓練和測試數據集均使用 COCO 數據集 [7]。
評價指標選用目標關鍵點相似度(Object Keypoint Similarity, OKS)。在 COCO val 數據集上的比較的結果如下表格,采用小模型 HRNetV1-W32(從零開始訓練)的方法比以前的最新方法具有更好的性能。
在 COCO test-dev 數據集上,HRNetV1 和現有最先進方相比要好得多。另一方面,輕量網絡 HRNetV1-W32 的 AP 達到 74.9,其性能優于其他所有自上而下的方法,并且在模型大小(Params)和計算復雜度(GFLOP)方面更加高效。而大型模型 HRNetV1-W48 則達到了最高 AP 得分 75.5。
4.2 語義分割實驗
在語音分割的任務上,作者使用了 HRNetV2 作為該任務的模型。在文章中使用三個數據集作為評估的數據集:兩個自然場景解析數據集,PASCAL-Context [8] 和 Cityscapes [9],一個人類場景數據集 LIP [10]。采用均交并比(mIoU)作為評價指標。
Cityscapes val 數據集的結果如下表所示。我們可以發現 HRNetV2-W40(40 表示高分辨率卷積的寬度),模型尺寸與 DeepLabv3 + 類似,但是計算復雜度低得多,性能更佳。并且與其他模型相比結果更好。
Cityscapes test 數據集的結果如下表所示,HRNetV2-W48 在 Cityscapes val 和 Cityscapes test 數據集上均具有出色的性能。
HRNetV2 在 PASCAL-Context 數據集上的結果如下表所示。在該數據集下評估模型方法有兩種:59 類和 60 類(59 類+背景)的 mIoU。在這兩種情況下,HRNetV2-W48 都能獲得最好的結果。
對于人類場景數據集 LIP,HRNetV2-W48 的整體性能以較少的參數和較低的計算成本表現出最佳性能。在該數據集的結果如下表所示。
4.3 目標檢測
目標檢測任務,作者使用 MS COCO2017detection 數據集進行評估。首先使用了 HRNetV2p,ResNet,ResNext [11] 和 Hourglass [12] 作為 backbone 的參數量和 GFLOPs 進行對比,如下表所示。
然后在 Faster R-CNN [13] 和 Cascade R-CNN [14] 框架中對 COCOval 進行評估。HRNetV2p 比 ResNet 和 ResNeXt 表現更好。結果如下表所示。
在 FCOS 和 CenterNet 框架中的 COCOval 數據集目標檢測結果如下表所示。結果使用作者提供的實現方式獲得的。HRNetV2p 在相似的參數和計算復雜性方面優于 ResNet 和 Hourglass。但是 HRNetV2p-W64 的性能比 Hourglass-104 稍差,原因是 Hourglass-104 比 HRNetV2p-W64 參數量多。
Mask R-CNN 及其擴展框架上的 COCO val 上的目標檢測結果,如下表所示。除了 HRNetV2p-W18 有時性能比 ResNet-50 差外,整體性能優于 ResNet。在 Mask 方面對小物體(APS)的改進也比中(APM)和大物體(APL)顯著。
消融研究
對 HRNet 中的模塊進行消融研究,涉及兩個任務:人體姿勢估計和語義分割。我們主要使用 HRNetV1-W32 進行人體姿勢估計,使用 HRNetV2-W48 進行語義分割。
5.1 不同分辨率的特征圖對結果的影響
從不同分辨率的特征圖估計的熱圖的質量從高到低,研究不同分辨率的特征圖如何影響人體姿態估計性能。作者訓練了兩個 HRNetV1 網絡。網絡輸出從高到低分辨率的四個特征圖,最低分辨率特征圖上的熱圖預測質量太低,AP 分數低于 10 分。下圖報告了其他三個特征圖的 AP 分數。實驗表明,分辨率確實會影響關鍵點預測質量。
▲?圖6. 1×,2×,4×分別對應于高分辨率,中分辨率和低分辨率
5.2 重復多分辨率融合對結果的影響
作者分析了重復多分辨率融合的效果,研究了網絡的三種變體。(a)無中間融合模塊:多分辨率支路之間除了最終融合模塊外沒有融合。(b)跨階段融合單元:每個階段內的相同分辨率支路之間沒有融合。(c)跨階段階段和內融合模塊:這是 HRNet 的結構。
所有網絡均從零開始進行培訓。下表中給出的關于 COCO 人體姿態估計和 Cityscapes 語義分割的結果表明,多分辨率融合模塊很有幫助,并且更多的融合會帶來更好的性能。
5.3 分辨率保持對于結果的影響
作者針對最后將低分辨率特征圖與高分辨率特征圖融合做了對比試驗。結果表明 HRNetV2 的低分辨率并行卷積中聚合表示對于提高準確度至關重要。對比結果如下圖所示。
▲?圖7. (a)在Cityscapes和 PASCAL-Context上進行語義分割(b)在COCOval上進行目標檢測
總結
在本文中,作者提出了用于視覺識別問題的高分辨率網絡(HRNet)。與現有的低分辨率分類網絡和高分辨率特征學習網絡存在三個根本區別:(i)并行連接高分辨率和低分辨率卷積,而不是串聯連接;(ii)在整個過程中保持高分辨率,而不是從低分辨率中恢復高分辨率;(iii)重復融合多分辨率表示。
?
參考文獻
[1]. Wang J, Sun K, Cheng T, et al. Deep high-resolution representation learning for visual recognition[J]. IEEE transactions on pattern analysis and machine intelligence, 2020.
[2]. He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.
[3]. Huang G, Liu Z, Van Der Maaten L, et al. Densely connected convolutional networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 4700-4708.
[4]. Zhang H, Wu C, Zhang Z, et al. Resnest: Split-attention networks[J]. arXiv preprint arXiv:2004.08955, 2020.
[5]. Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.
[6]. Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in neural information processing systems. 2012: 1097-1105.
[7]. Lin T Y, Maire M, Belongie S, et al. Microsoft coco: Common objects in context[C]//European conference on computer vision. Springer, Cham, 2014: 740-755.
[8]. Mottaghi R, Chen X, Liu X, et al. The role of context for object detection and semantic segmentation in the wild[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2014: 891-898.
[9]. Cordts M, Omran M, Ramos S, et al. The cityscapes dataset for semantic urban scene understanding[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 3213-3223.
[10]. Gong K, Liang X, Zhang D, et al. Look into person: Self-supervised structure-sensitive learning and a new benchmark for human parsing[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2017: 932-940.
[11]. Xie S, Girshick R, Dollár P, et al. Aggregated residual transformations for deep neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 1492-1500.
[12]. Newell A, Yang K, Deng J. Stacked hourglass networks for human pose estimation[C]//European conference on computer vision. Springer, Cham, 2016: 483-499.
[13]. Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems. 2015: 91-99.
[14]. Cai Z, Vasconcelos N. Cascade r-cnn: Delving into high quality object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 6154-6162.
?
?
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的TPAMI 2020 | 高分辨率网络对计算机视觉任务的影响的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: u盘启动屏蔽右键怎么实现 屏蔽u盘启动时
- 下一篇: 腾讯 CEO 马化腾重回中国首富,张一鸣