论文导读:DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution
論文導(dǎo)讀:DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution
Abstract
許多現(xiàn)在的目標(biāo)檢測(cè)方法通過(guò)兩次尋找搜索展示卓越的性能,這篇文章的主要原理是在 目標(biāo)檢測(cè)的backbone設(shè)計(jì)上。在宏觀層面,我們提出Recursive Feature Pyramid(遞歸特征金字塔):包括從FPN提出額外的反饋連接進(jìn)入up-bottom backbone layers。從微觀層面,我們提出Switchable Atrous Convolution:conv 具有不同 atrous rate 的特征,并使用開(kāi)關(guān)功能收集結(jié)果。
Introduction
許多有名的兩階段目標(biāo)檢測(cè)器,像Faster R-CNN,首先輸出物體建議框,然后基于區(qū)域特征去提取檢測(cè)到到物體。沿著同樣的方向,Cascade R-CNN 建立了一個(gè)多階段檢測(cè)器,后續(xù)的檢測(cè)器heads與更多的選擇性實(shí)例進(jìn)行訓(xùn)練。
我們的方法,在宏觀層面:Recursive Feature Pyramid 基于FPN頂部,從FPN提出額外的反饋連接到up-bottom backbone layers。將遞歸結(jié)構(gòu)展開(kāi)為順序執(zhí)。類(lèi)似于Cascade R-CNN中的cascade檢測(cè)器,選擇性的運(yùn)用實(shí)例進(jìn)行訓(xùn)練,我們的RFP遞歸加強(qiáng)FPN去創(chuàng)建更多強(qiáng)表達(dá)力的特征。像Deeply-Supervised Nets一樣,反饋連接生成的特征從檢測(cè)器頭部直接接收梯度到低級(jí)別的bottom-up backbone中,進(jìn)而加快訓(xùn)練速度和提高精度。
在微觀方面,我們提出Switchable Atrous Convolution(SAC),通過(guò)同樣輸入特征和不同的atrous rate進(jìn)行卷積,并且在收集結(jié)果處添加了開(kāi)關(guān)功能。這個(gè)開(kāi)關(guān)功能依賴于空間性,每一個(gè)特征映射地區(qū)可以有不同的開(kāi)關(guān)區(qū)控制SAC的輸出。在檢測(cè)器上使用SAC,我們轉(zhuǎn)化了bottom-up backbone中所有以3*3為基準(zhǔn)的卷積層為SAC,大量的提高了檢測(cè)器的性能。一些之前的方法采取了有條件的卷積,例如結(jié)合不同結(jié)果的卷積層作為單個(gè)輸出,不像這些需要從頭開(kāi)始的架構(gòu),SAC提出了提供一種簡(jiǎn)便轉(zhuǎn)化預(yù)訓(xùn)練模型的標(biāo)準(zhǔn)卷積網(wǎng)絡(luò)。此外,在SAC中使用了新的權(quán)重鎖定原理,除了可訓(xùn)練的差異,不同atrous卷積的權(quán)重都相同。
Recursive Feature Pyramid
1.1 Recursive Feature Pyramid
回歸特征金字塔是在FPN的基礎(chǔ)上,采用反饋連接方式,將單次經(jīng)過(guò)FPN的輸出特征作為輸入再次進(jìn)入FPN(與ResNet相似)。
FPN結(jié)構(gòu)如下圖所示,它包含了四種結(jié)構(gòu):bottom-up,up-down,lateral connection,feature fusion.
bottom-up : 原始的FPN結(jié)構(gòu)是以resnet為backbone,將輸入圖片經(jīng)過(guò)網(wǎng)絡(luò)結(jié)構(gòu)輸出為不同大小的特征圖,C1,C2,C3,C4,C5在各自基礎(chǔ)上h_size/2,w_size/2.bottom-up目的是提取出含有更多語(yǔ)義信息的特征圖。
up-down: 將C5進(jìn)行1x1卷積成P5,較少通道數(shù)(即減少了運(yùn)算參數(shù))。對(duì)P5進(jìn)行最鄰近上采樣(h_size2,w_size2)成P4,P3,P2,目的是得到和對(duì)應(yīng)的C4,C3,C2相同大小w*h尺寸矩陣。
lateral connection: 把C4,C3,C2進(jìn)行1*1Conv后生成P4’,P3’,P2’,目的是得到和特征圖P4,P3,P2相同通道數(shù)的特征。
feature fusion: 把經(jīng)過(guò)上采樣后的P4,P3,P2與經(jīng)過(guò)11Conv后的P4’,P3’,P2’相加。得到的P4’‘,P3’‘,P2’‘。將相加后的結(jié)果進(jìn)行33卷積,因?yàn)樵诤?jiǎn)單的進(jìn)行對(duì)應(yīng)通道的逐位置相加會(huì)出現(xiàn)特征堆疊的情況,用3*3卷積結(jié)果處理后可以有效的融合相加后的特征。
RFP是把經(jīng)過(guò)FPN后的特征結(jié)果反饋連接到FPN的bottom-up層作為輸入的一部分,和ResNet相似,這樣可以有效的融合輸入特征,引導(dǎo)函數(shù)往更正確的方向前進(jìn),檢測(cè)提高了精度。
1.2 ASPP as the Connecting Module
原文鏈接:語(yǔ)義分割A(yù)SPP
空洞空間卷積池化金字塔(atrous spatial pyramid pooling (ASPP))對(duì)所給定的輸入以不同采樣率的空洞卷積并行采樣,相當(dāng)于以多個(gè)比例捕捉圖像的上下文。
上圖為deeplab v2的ASPP模塊,deeplabv3中向ASPP中添加了BN層,其中空洞卷積的rate的意思是在普通卷積的基礎(chǔ)上,相鄰權(quán)重之間的間隔為rate-1, 普通卷積的rate默認(rèn)為1,所以空洞卷積的實(shí)際大小為k + (k ? 1) ( rate ? 1) k+(k-1)(rate-1)k+(k?1)(rate?1),其中k為原始卷積核大小。
這篇文章是用ASPP(atrous spatial pyramid pooling)作為連接函數(shù),如下圖:
不是簡(jiǎn)單的將上層金字塔的輸出作為輸入進(jìn)入下一層的迭代(這里把RFP看成由多個(gè)FPN組成的疊加網(wǎng)絡(luò),宏觀上,每個(gè)圖像金字塔和特征金字塔可以看為一層),ASPP作為中間結(jié)點(diǎn)(上圖中綠點(diǎn)),通過(guò)空洞卷積函數(shù)將上層輸出做運(yùn)算,轉(zhuǎn)化為下層輸入。原文結(jié)構(gòu)不再詳解。如代碼鏈接:DetectoRS-github鏈接
1.3 Output Update by the Fusion Module
如上圖所示,Fusion Module是把上層輸出和本層輸出更好的融合起來(lái),通過(guò)卷積和sigmoid激活函數(shù)。
2.Switchable Atrous Convolution
總結(jié)
以上是生活随笔為你收集整理的论文导读:DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: sounds音标软件Android,So
- 下一篇: 360路由上线:周红衣和他的小盒子们