DetectoRS-最强目标检测网络 54.7AP | Detecting Objects with Recursive Feature Pyramid and Switchable Atrous
最新目標檢測論文,從檢測的骨干網絡設計出發(最近基于backbone的修改,貌似更有效!同比的由SCNet),效果直接SOTA!
論文地址:https://arxiv.org/pdf/2006.02334.pdf
Github地址(基于mmdet):https://github.com/joe-siyuan-qiao/DetectoRS
Abstract:
一些現有的目標檢測器已經證明了,通過使用兩次觀察和思考的機制,能夠表現出優秀的性能。 在本文中,我們探索了將這種機制用于目標檢測的主干設計中。 在宏觀級別,我們提出了遞歸特征金字塔,它結合了從特征金字塔網絡到自下而上的骨干層的額外反饋連接。 在微觀層面上,我們提出了可切換的Atrous卷積,它以不同的atrous速率對特征進行卷積,并使用switch函數收集結果。 將它們組合在一起就是DetectoRS,這將大大提高目標檢測的性能。 在COCO測試集上,DetectoRS達到了用于目標檢測的54.7%的box AP,用于實例分割的47.1%的mask AP和用于全景分割的49.6%的PQ。
Introduction:
基于人類視覺系統的啟發,“兩次觀察與思考的機制”在目標檢測任務中,被證明具有優秀的表現。如上表所示,作者將這種設計理念在用于目標檢測的神經網絡主干設計中進行探索。 具體在宏觀和微觀兩個層面上都部署了該機制,從而,本文提出的DetectoRS大大提高了最新的物體檢測器HTC 的性能,同時保持了類似的推理速度。可以看出有了7.7個點的提升!
宏觀層面來說,本文提出的遞歸特征金字塔(RFP)建立在特征金字塔網絡(FPN)之上。通過將額外的反饋連接從FPN層合并到自下而上的骨干層,如上圖a所示。 將遞歸結構展開為順序實現,該主干網絡可以將圖像查看兩次或更多次。此外,RFP遞歸增強了FPN以生成越來越強大的表示形式。類似于深度監督網絡,反饋連接將直接從檢測器頭接收梯度的功能帶回到自下而上的骨干網的低層,以加快訓練速度并提高性能。我們提出的RFP實現了兩次思考的順序設計,其中自下而上的骨干網和FPN運行了多次,其輸出功能取決于前面步驟中的功能。
在微觀層面上,論文提出了可切換空洞卷積(SAC),它可將相同的輸入特征與不同的空洞率進行卷積,并使用切換功能來收集結果。上圖b顯示了SAC概念的圖示。開關功能在空間上是相關的,即,特征圖的每個位置可能具有不同的開關來控制SAC的輸出。為了在檢測器中使用SAC,我們將自下而上的主干網中的所有標準3x3卷積層都轉換為SAC,從而大大提高了檢測器性能。此外,在SAC中使用了一種新的權重鎖定機制,其中除了可訓練的差異之外,不同圓環卷積的權重相同。
效果總結:
以ResNet-50 為骨干網絡的DetectoRS將HTC 分別提高了7.7%box AP和5.9%mask AP。 此外,骨干網絡為ResNeXt-101-32x4d 可實現最優的54.7%box AP和47.1%mask AP。 以Wide-ResNet-41 [10]為骨干的DeepLabv3 + 中,DetectoRS為全景分割創造了49.6%PQ的新記錄。
Recursive Feature Pyramid(RFP):
上圖(a)所示為FPN的經典機構
上圖(b)中的連接線為RFP提出的反饋連接方式
上圖(c)展示了RFP按順序展開的網絡結構。具體來說,就是在經過兩次FPN結構的之間加了個反饋連接。其中,反饋連接為第一次FPN各層輸出經過ASPP輸出與主干網絡的各層連接。最終的輸出為兩次FPN輸出結果的融合。接下來,具體介紹一下實現細節。
A.論文中的ASPP結構:
在此模塊中,有四個并行分支,輸入特征x,然后將它們的輸出沿通道維連接在一起,以形成R的最終輸出。其中,三個分支使用空洞率大小不同的卷積層,后跟ReLU層, 輸出通道數為1 /4輸入通道數。 最后一個分支使用全局平均池化層壓縮特征,然后使用1x1卷積層和ReLU層將壓縮后的特征轉換為1 / 4大小(逐通道)的特征。 最后,四個分支結果進行拼接輸出。三個分支中的卷積層具有以下配置:卷積核大小= [1、3、3],空洞率= [1、3、6],填充= [0、3、6]
B.ASPP輸出與主干網絡反饋連接結構:
以ResNet主干網絡為例,其具有四個階段,每個階段都由幾個相似的殘差塊組成。 我們只對每個階段的第一個殘差塊進行更改,如圖3所示。將輸入修改為Input與反饋連接的RFP Features。其中,RFP Features添加了另一個卷積層,其內核大小設置為1。該層的權重初始化為0以確保當我們從預訓練權值文件加載權重時,該層的權重沒有任何實際影響。
C.兩次FPN輸出特征融合結構:
如圖5所示,對第二層FPN輸出特征進行1X1卷積核Sigmoid函數,生成注意力權重。最后對兩次FPN輸出特征進行權重融合。
Switchable Atrous Convolution:
SAC的總體架構如上圖所示,它具有三個主要組件:在SAC組件之前和之后附加了兩個全局上下文模塊。 應用方式為,主干網絡中的3X3標準卷積都替換為SAC。
A.Switchable Atrous Convolution結構:
公式如(4)所示,對于一個空洞率為1的標準卷積轉化為SAC結構,就是切換函數S(x)對兩個空洞率大小不一致卷積的加權和。如圖中所示:切換函數S(x)的實現方式為,5X5的GAP加上1x1卷積。兩個卷積的空洞率分別為1和3。
B,鎖定機制:
目標檢測器通常使用預訓練權值來初始化權重。 但是,對于從標準卷積層轉換而來的SAC層,缺少較大atrous率的權重。 由于可以用相同的權重以不同的空洞率粗略地檢測出不同尺度的目標,因此自然地用預訓練模型中的權重來初始化丟失的權重是很自然的。所以,本文提出了一種鎖定機制,即將一個卷積權重設置為w,將另一個卷積權重設置為w + dw。 其中w來自預訓練的權值,并且dw初始化為0。當固定dw = 0時,我們觀察到AP下降了0:1%。 但是沒有鎖定機制的單獨dw會使AP降低很多。
C.Global Context結構:
使用原因源于大量實驗結果的對比,其結構與SE模塊很像,兩個主要區別是:
1)我們只有一個卷積層,沒有任何非線性層;
2)輸出被加回到主流上,而不是乘以 輸入由Sigmoid計算的重新校準值。
Experiments:
1.Ablation Studies:RFP+SAC可以提升7個點!
2.Object Detection COCO基準:54.7 AP
3.Instance Segmentation:47.1 AP
4.Panoptic Segmentation:49.6PQ
總結
以上是生活随笔為你收集整理的DetectoRS-最强目标检测网络 54.7AP | Detecting Objects with Recursive Feature Pyramid and Switchable Atrous的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 单元测试,Win7设置wifi热点
- 下一篇: DSPACE解决主车弯道行驶问题