當(dāng)前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

Mask R-CNN论文

發(fā)布時間：2023/12/15 编程问答 29 豆豆

生活随笔收集整理的這篇文章主要介紹了 Mask R-CNN论文小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.

摘要
1.引言
2.相關(guān)工作
3.Mask R-CNN
- 3.1 實施細節(jié)
4.實驗：實例分割
- 4.1 主要結(jié)果
- 4.2 消融實驗
- 4.3 邊界框檢測結(jié)果
- 4.4 時序
5.Mask R-CNN 用于人體姿態(tài)估計
附錄A：關(guān)于城市景觀的實驗
附錄B：關(guān)于COCO的增強結(jié)果
- 實例分割和對象檢測
- 關(guān)鍵點檢測
參考文獻

傳送門：
論文原文.
代碼.

摘要

我們?yōu)閷嵗指钐峁┝艘粋€概念上簡單，靈活且通用的框架。我們的方法有效檢測了圖像中的對象，并同時為每個實例生成了高質(zhì)量的分割蒙版。該方法稱為“Mask R-CNN”，通過與現(xiàn)有的用于邊界框識別的分支并行添加一個用于預(yù)測對象遮罩的分支，擴展了Faster R-CNN。 Mask R-CNN易于訓(xùn)練并且只在Faster R-CNN添加了很小的開銷，并以 5 fpts 的速度運行。此外， Mask R-CNN很容易推廣到其他其他任務(wù)，比如允許我們在同一框架中估計人體姿態(tài)。我們在COCO挑戰(zhàn)套件的所有三個軌跡中均顯示了最佳結(jié)果，包括實例分割、邊界框目標(biāo)檢測和人體關(guān)鍵點檢測。Mask R-CNN在所有任務(wù)上都勝過了現(xiàn)存的單一模型，包括2016年COCO挑戰(zhàn)賽獲獎?wù)摺Ｎ覀兿Ｍ覀兒唵斡行У姆椒梢宰鳛閳詫嵉幕鶞?zhǔn)，并有助于簡化實例識別的未來研究。代碼已在以下位置提供：https://github.com/facebookresearch/Detectron.

1.引言

視覺領(lǐng)域在短時間內(nèi)迅速改善了對象檢測和語義分割結(jié)果。在很大程度上，這些進步是由強大的基線系統(tǒng)驅(qū)動的，例如分別用于對象檢測和語義分段的Fast/Faster RCNN [12，36]和完全卷積網(wǎng)絡(luò)（FCN）[30]框架。這些方法在概念上很直觀，并具有靈活性，魯棒性以及快速的訓(xùn)練和推理時間。我們在這項工作中的目標(biāo)是為實例分割開發(fā)一個可比較的框架。
實例分割具有挑戰(zhàn)性，因為它需要正確檢測圖像中的所有對象，同時還要精確分割每個實例。因此，它結(jié)合了目標(biāo)檢測的經(jīng)典計算機視覺任務(wù)中的元素，其中的目標(biāo)是使用邊界框和語義分割對單個對象進行分類并對其進行定位，其目標(biāo)是將每個像素分類為一組固定的類別，而無需區(qū)分對象實例。鑒于此，人們可能期望一種復(fù)雜的方法才能獲得良好的結(jié)果。但是，我們展示出的驚人地簡單，靈活和快速的系統(tǒng)可以超越現(xiàn)有的最新的實例分割結(jié)果。
我們的方法稱為Mask R-CNN，它通過添加一個分支來預(yù)測每個關(guān)注區(qū)域（RoI）上的分割蒙版，從而擴展了Faster R-CNN [36]，與現(xiàn)有的用于分類和邊界框回歸的分支并行（Figure 1）。遮罩分支是應(yīng)用于每個RoI的小FCN，以像素到像素的方式預(yù)測分段遮罩。有了Faster R-CNN框架，Mask R-CNN易于實施和訓(xùn)練，從而促進了多種靈活的體系結(jié)構(gòu)設(shè)計。另外，mask分支僅增加了少量的計算開銷，就能夠?qū)崿F(xiàn)一個快速系統(tǒng)和快速實驗。

原則上，Mask R-CNN是Faster R-CNN的直觀擴展，但正確構(gòu)造Mask分支對于獲得良好的結(jié)果至關(guān)重要。最重要的是，Faster R-CNN并不是為網(wǎng)絡(luò)輸入和輸出之間的像素到像素的對齊而設(shè)計的。這在加入實例的核心操作RoIPool [18，12怎樣對特征提取進行組略的空間量化的過程中] 最為明顯。為了解決不對齊問題，我們提出了一個簡單的無量化層，稱為RoIAlign，它保留了準(zhǔn)確的空間位置。盡管看似很小的變化，RoIAlign仍具有很大的影響：它將掩模的精度提高了10％至5??0％，在更嚴(yán)格的本地化指標(biāo)下顯示出更大的收益。其次，我們發(fā)現(xiàn)將遮罩和類別預(yù)測分離開來是至關(guān)重要的：我們獨立地為每個類別預(yù)測二進制掩碼，而無需類別之間的競爭，并依靠網(wǎng)絡(luò)的RoI分類分支來預(yù)測類別。相比之下，FCN通常執(zhí)行按像素的多類分類，這將分割和分類結(jié)合在一起，并且基于我們的實驗，分割的效果很差。
沒有其他花里胡哨的添加，Mask R-CNN在COCO實例分割任務(wù)[28]上超過了所有先前的最新單模型結(jié)果，包括2016年競賽獲勝者的精心設(shè)計的項目。作為副產(chǎn)品，我們的方法還擅長于COCO對象檢測任務(wù)。在消融實驗中，我們評估了多個基本實例，這使我們能夠證明其魯棒性并分析核心因素的影響。
我們的模型在GPU上每幀的運行時間約為200毫秒，在一臺8-GPU機器上進行COCO的訓(xùn)練需要一到兩天。我們相信，快速的訓(xùn)練和測試速度，以及框架的靈活性和準(zhǔn)確性，將有益于并簡化未來對實例細分的研究。
最后，我們通過在COCO關(guān)鍵點的數(shù)據(jù)集上進行人體姿勢估計任務(wù)來展示我們框架的通用性[28]。通過將每個關(guān)鍵點視為一個一次性二進制的蒙版，只需要進行最少的修改即可將Mask R-CNN應(yīng)用于檢測特定實例的姿勢。 Mask R-CNN超越了2016年COCO關(guān)鍵點競賽的獲勝者，同時以5 fps的速度運行。因此，Mask R-CNN可以更廣泛地視為實例級別識別的靈活框架，并且可以輕松擴展到更復(fù)雜的任務(wù)。
我們已經(jīng)發(fā)布了代碼以方便將來的研究。

2.相關(guān)工作

R-CNN： 基于邊界的CNN（R-CNN）進行邊界框?qū)ο髾z測的方法[13]涉及可管理數(shù)量的候選對象區(qū)域[42、20]并在每個RoI上獨立評估卷積網(wǎng)絡(luò)[25、24]。 R-CNN進行了擴展[18，12]，允許使用RoIPool加入功能圖上的RoI，從而提高了速度和準(zhǔn)確性。Faster R-CNN [36]通過使用區(qū)域提議網(wǎng)（RPN）學(xué)習(xí)注意力機制來推進這一流程。Faster R-CNN對許多后續(xù)改進（例如[38、27、21]）都具有靈活性和魯棒性，并且在多個基準(zhǔn)測試中都是當(dāng)前領(lǐng)先的框架。
實例分割： 在R-CNN的有效性的驅(qū)動下，很多實例分割的方法都是基于分割提案的。較早的方法[13、15、16、9]采用自下而上的方法[42、2]。 DeepMask [33]和隨后的工作[34，8]學(xué)習(xí)去建議分段候選者，然后由Fast R-CNN對其進行分類。在這些方法中，分割先于識別，然后再進行識別，速度較慢且準(zhǔn)確性較低。同樣，Dai等人。 [10]提出了一個復(fù)雜的多階段級聯(lián)，從邊界框提議中預(yù)測分段提議，然后進行分類。相反，我們的方法基于對掩碼和類標(biāo)簽的并行預(yù)測，這更簡單，更靈活。
最近，Li等人。 [26]結(jié)合了[8]中的分段提議系統(tǒng)和[11]中的對象檢測系統(tǒng)，以實現(xiàn)“全卷積實例分割”（FCIS）。 [8、11、26]中的共同思想是完全卷積地預(yù)測一組位置敏感的輸出通道。這些通道同時處理對象類，框和掩碼，從而使系統(tǒng)快速運行。但是，FCIS在重疊的實例上表現(xiàn)出系統(tǒng)性錯誤并產(chǎn)生虛假邊緣（圖6），這表明它受到了分割實例基本困難的挑戰(zhàn)。
實例分割的另一類解決方案[23、4、3、29]是由語義分割的成功驅(qū)動的。從按像素分類的結(jié)果（例如FCN輸出）開始，這些方法嘗試將相同類別的像素切成不同的實例。與這些方法的分割優(yōu)先策略相反，Mask R-CNN基于實例優(yōu)先策略。我們希望將來將對這兩種策略進行更深入的研究。

3.Mask R-CNN

Mask R-CNN概念上很簡單：Faster R-CNN對每個候選對象都有兩個輸出，一個是類標(biāo)簽，另一個是邊界框偏移。為此，我們添加了第三個分支，用于輸出對象蒙版。因此，Mask R-CNN是一個自然而直觀的想法。但是附加的遮罩輸出與類和框輸出不同，需要提取對象的更精細的空間布局。接下來，我們介紹Mask R-CNN的關(guān)鍵元素，包括像素到像素對齊，這是Fast / Faster R-CNN主要缺少的部分。
Faster R-CNN： 我們首先簡要回顧一下Faster R-CNN檢測器[36]。Faster R-CNN包含兩個階段。第一階段稱為區(qū)域提議網(wǎng)絡(luò)（RPN），提出候選對象邊界框。第二階段本質(zhì)上是Fast R-CNN [12]，它使用RoIPool從每個候選框中提取特征，并執(zhí)行分類和邊界框回歸。可以共享兩個階段使用的功能，以加快推理速度。我們建議讀者參考[21]，以了解Faster R-CNN與其他框架之間最新的，全面的比較。
Mask R-CNN： Mask R-CNN采用相同的兩階段過程，具有相同的第一階段（即RPN）。在第二階段，與預(yù)測類和框偏移量并行，Mask R-CNN還為每個RoI輸出一個二進制掩碼。這與多數(shù)最近出現(xiàn)的系統(tǒng)相反，在最新系統(tǒng)中，分類取決于蒙版預(yù)測（例如[33、10、26]）。我們的方法遵循了Fast R-CNN [12]的精神，該思想并行應(yīng)用邊界框分類和回歸（結(jié)果是大大簡化了原始R-CNN [13]的多階段流水線）。
正式地來講，在訓(xùn)練期間，我們將每個采樣的RoI定義為多任務(wù)損失，即L = L_cls + L_box + L_mask。分類損失L_cls和邊界框損失L_box與[12]中定義的相同。掩碼分支對每個RoI都有K_m^2維輸出，該輸出編碼K個分辨率為m×m的二進制掩碼，K個類別中的每個掩碼都一個。為此，我們應(yīng)用了每個像素的S形，并將L_mask定義為平均二進制交叉熵損失。對于與真實級別k相關(guān)的RoI，L_mask僅在第k個掩模上定義（其他掩模輸出對損耗無貢獻）。
我們對 L_mask 的定義允許網(wǎng)絡(luò)為每個類生成掩碼，而無需在類之間進行競爭。我們依靠專用分類分支來預(yù)測用于選擇輸出掩碼的類標(biāo)簽。這使掩碼和類別預(yù)測脫鉤。這與將FCN [30]應(yīng)用于語義分割時的慣例不同，語義分割通常使用每像素softmax和多項式交叉熵損失。在這種情況下，蒙版跨階級競爭。在我們的情況下，每像素S形和二進制損失，它們沒有。我們通過實驗表明，此公式對于良好的實例分割結(jié)果至關(guān)重要。
蒙版表示Mask Representation： 蒙版對輸入對象的空間布局進行編碼。因此，與通過完全連接的（fc）層不可避免地折疊成短輸出向量的類標(biāo)簽或框偏移不同，提取遮罩的空間結(jié)構(gòu)可以自然地通過卷積提供的像素間關(guān)系解決。具體來說，我們使用FCN預(yù)測每個RoI的m×m掩模[30]。這使mask分支中的每一層都可以保持顯式的m×m對象空間布局，而無需將其折疊為缺少空間尺寸的矢量表示。與先前的方法使用fc層進行蒙板預(yù)測[33、34、10]不同，我們的全卷積表示需要更少的參數(shù)，并且如實驗所示更準(zhǔn)確。這種像素到像素的行為要求我們的RoI特征（它們本身是小的特征圖）必須正確對齊以忠實地保留顯式的每個像素空間的對應(yīng)關(guān)系。這促使我們開發(fā)出以下RoIAlign層，該層在掩模預(yù)測中起關(guān)鍵作用。

RoIAlign： RoIPool [12]是一種標(biāo)準(zhǔn)操作，用于從每個RoI中提取一個小的特征圖（例如7×7）。 RoIPool首先將浮點數(shù)RoI量化為特征圖的離散粒度，然后將此量化的RoI細分為自身被量化的bin，最后匯總每個bin所覆蓋的特征值（通常通過最大池化）。量化例如通過計算[x / 16]從而在連續(xù)坐標(biāo)x上執(zhí)行，其中16是特征圖跨度，[·]是舍入；同樣地，當(dāng)劃分為bins（例如7×7）時執(zhí)行量化。這些量化在RoI和提取的特征之間并未對準(zhǔn)。盡管這可能不會影響分類（對于小轉(zhuǎn)換而言是穩(wěn)健的），但它對預(yù)測像素準(zhǔn)確的蒙版具有很大的負面影響。
為了解決這個問題，我們提出了一個RoIAlign層，該層消除了RoIPool的苛刻量化，將提取的特征與輸入正確對齊。我們提出的更改很簡單：我們避免對RoI邊界或bin進行任何量化（即，我們使用x / 16代替[x / 16]）。我們使用雙線性插值[22]來計算每個RoI箱中四個定期采樣位置的輸入要素的準(zhǔn)確值，并匯總結(jié)果（使用最大值或平均值），有關(guān)詳細信息，請參見圖3。我們注意到，只要不執(zhí)行量化，結(jié)果對精確的采樣位置或采樣的點數(shù)都不敏感。
正如我們在§4.2中所示，RoIAlign帶來了巨大的改進。我們還與[10]中提出的RoIWarp操作進行了比較。與RoIAlign不同，RoIWarp忽略了對齊問題，并在[10]中實現(xiàn)了像RoIPool一樣量化RoI。因此，即使RoIWarp也采用了[22]所激發(fā)的雙線性重采樣，它的性能與RoIPool相當(dāng)，如實驗所示（Table 2c（見下文）中的更多詳細信息），證明了對齊的關(guān)鍵作用。
網(wǎng)絡(luò)架構(gòu) 為了演示我們方法的通用性，我們實例化具有多種體系結(jié)構(gòu)的Mask R-CNN。為了清楚起見，我們區(qū)分：（i）用于整個圖像特征提取的卷積主干架構(gòu)，以及（ii）分別應(yīng)用于每個RoI的邊界框識別（分類和回歸）和掩碼預(yù)測的網(wǎng)絡(luò)頭。我們使用命名網(wǎng)絡(luò)深度功能來表示骨干架構(gòu)。我們評估深度為50或101層的ResNet [19]和ResNeXt [45]網(wǎng)絡(luò)。帶有ResNets的Faster R-CNN的最初實現(xiàn)[19]從第4階段的最終卷積層中提取了特征，我們稱之為C4。例如，具有ResNet-50的主干網(wǎng)由ResNet-50-C4表示。這是[19，10，21，39]中常用的選擇。我們還探索了Lin等人最近提出的另一個更有效的主干。 [27]，稱為特征金字塔網(wǎng)絡(luò)（FPN）。 FPN使用具有橫向連接的自上而下的體系結(jié)構(gòu)，可以根據(jù)單比例輸入構(gòu)建網(wǎng)絡(luò)內(nèi)要素金字塔。具有FPN主干的更快的R-CNN可根據(jù)特征金字塔的規(guī)模從不同層次的特征金字塔中提取RoI特征，但其他方法與普通ResNet類似。通過使用ResNet-FPN主干與Mask RCNN進行特征提取，可以在準(zhǔn)確性和速度上獲得出色的收益。有關(guān)FPN的更多詳細信息，請參考[27]。對于網(wǎng)絡(luò)負責(zé)人，我們緊密遵循先前工作中介紹的體系結(jié)構(gòu)，并向其中添加了完全卷積的掩碼預(yù)測分支。具體來說，我們從ResNet [19]和FPN [27]的論文中擴展了Faster R-CNN的標(biāo)注框頭。詳細信息如Figure 4所示。ResNet-C4骨干網(wǎng)的頭部包括ResNet的第5階段（即9層“ res5” [19]），這是計算密集型的。對于FPN，骨干網(wǎng)已經(jīng)包含res5，因此可以使用更少的過濾器來獲得更高效的磁頭。我們注意到，掩碼分支具有簡單明了的結(jié)構(gòu)。更復(fù)雜的設(shè)計具有改善性能的潛力，但并不是本工作的重點。

3.1 實施細節(jié)

我們根據(jù)現(xiàn)有的Fast/Faster R-CNN的研究工作[12、36、27]設(shè)置超參數(shù)。盡管這些決策是針對原始論文[12、36、27]進行的，但我們發(fā)現(xiàn)它們也能很好地適用于我們的實例分割系統(tǒng)。
訓(xùn)練：與Fast R-CNN一樣，如果RoI的IoU的ground truth框至少為0.5，則RoI被視為正，否則為負。掩模損失函數(shù)僅在正的ROI上定義。遮罩目標(biāo)是RoI及其關(guān)聯(lián)的ground遮罩之間的交集。我們采用以圖像為中心的訓(xùn)練[12]。調(diào)整圖像大小，使其比例（較短邊緣）為800像素[27]。每個微型批處理具有每個GPU2個圖像的處理能力，每個圖像具有N個采樣的RoI，正負比為1：3 [12]。對于C4主干，N為64（如[12，36]）對于FPN為512（如[27]）也一樣。我們在8個GPU（有效最小批大小為16）上進行了16萬次迭代訓(xùn)練，學(xué)習(xí)率0.02，這在12萬次迭代中降低了10。我們使用0.0001的權(quán)重衰減和0.9的動量。使用ResNeXt [45]，我們?yōu)槊總€GPU訓(xùn)練1張圖像，并且迭代次數(shù)相同，起始學(xué)習(xí)率為0.01。 RPN錨點跨越5個比例和3個長寬比，緊隨[27]。為了方便消融，除非另有說明，否則RPN單獨訓(xùn)練，并且不與Mask R-CNN共享功能。對于本文的每個條目，RPN和Mask R-CNN具有相同的主干，因此可以共享。
推論：在測試時，對于C4骨干網(wǎng)（如[36]），提案編號為300；對于FPN（如[27]），提案編號為1000。我們對這些建議運行框預(yù)測分支，然后進行非最大抑制[14]。然后將mask分支應(yīng)用于得分最高的100個檢測盒。盡管這與訓(xùn)練中使用的并行計算有所不同，但它可以加快推理速度并提高準(zhǔn)確性（由于使用了更少，更準(zhǔn)確的RoI）。Masrer分支可以預(yù)測每個RoI的K個掩碼，但是我們僅使用第k個掩碼，其中k是分類分支的預(yù)測類。然后將m×m浮點數(shù)掩碼輸出調(diào)整為RoI大小，并以0.5的閾值進行二值化。請注意，由于我們僅在前100個檢測盒上計算蒙版，因此Mask R-CNN為其Faster R-CNN對應(yīng)產(chǎn)品增加了少量開銷（例如，在典型型號上約為20％）。

4.實驗：實例分割

我們對Mask R-CNN與現(xiàn)有技術(shù)進行了徹底的比較，并對COCO數(shù)據(jù)集進行了全面的燒蝕[28]。我們報告標(biāo)準(zhǔn)的COCO指標(biāo)，包括AP（超過IoU閾值的平均值），AP50，AP75，以及APS，APM，APL（不同規(guī)模的AP）。除非另有說明，否則A??P正在使用掩碼IoU進行評估。與以前的工作[5，27]一樣，我們使用80k火車圖像和val圖像的35k子集（trainval35k）的聯(lián)合進行訓(xùn)練，并報告剩余5k val圖像的消融（最小）。我們還報告有關(guān)test-dev的結(jié)果[28]。

4.1 主要結(jié)果

在表1的實例分割中，我們將Mask R-CNN與最新方法進行了比較。我們模型的所有實例化都優(yōu)于先前最新模型的基線變體。其中包括MNC [10]和FCIS [26]，分別是2015年和2016年COCO細分挑戰(zhàn)賽的獲勝者。沒有障礙，帶有ResNet-101-FPN主干的Mask R-CNN的性能優(yōu)于FCIS +++ [26]，其中包括多尺度訓(xùn)練/測試，水平翻轉(zhuǎn)測試和在線硬示例挖掘（OHEM）[38]。盡管不在本工作范圍之內(nèi)，但我們希望許多此類改進適用于我們的改進。圖2和圖5中顯示了模板R-CNN的輸出。即使在挑戰(zhàn)性條件下，模板R-CNN也能取得良好的效果。在圖6中，我們比較了Mask R-CNN基線和FCIS +++ [26]。 FCIS +++在重疊的實例上表現(xiàn)出系統(tǒng)的偽像，表明它受到實例分割的基本困難的挑戰(zhàn)。遮罩R-CNN沒有顯示此類偽像。

4.2 消融實驗

我們進行了多次消融來分析Mask R-CNN。結(jié)果示于表2，接下來將詳細討論。
體系結(jié)構(gòu)： 表2a顯示了具有各種主干的Mask R-CNN。它得益于更深的網(wǎng)絡(luò)（50和101）和先進的設(shè)計，包括FPN和ResNeXt。我們注意到，并非所有框架都會自動從更深層次的網(wǎng)絡(luò)或高級網(wǎng)絡(luò)中受益（請參見[21]中的基準(zhǔn)測試）。
多項式與獨立遮罩： 遮罩R-CNN將遮罩與類別預(yù)測分離開來：隨著現(xiàn)有的框分支預(yù)測類別標(biāo)簽，我們?yōu)槊總€類別生成一個遮罩，而各類別之間沒有競爭（通過每個像素的S型和二進制損失）。在表2b中，我們將此與使用每像素softmax和多項式損失（在FCN [30]中常用）進行了比較。這種替代方案將遮罩和類別預(yù)測的任務(wù)結(jié)合在一起，并導(dǎo)致遮罩AP的嚴(yán)重損失（5.5分）。這表明，一旦實例（通過框分支）被分類為一個整體，就足以預(yù)測二進制掩碼而無需考慮類別，這使得模型更易于訓(xùn)練。
特定于類別的掩碼與不可區(qū)分類別的掩碼： 我們的默認實例化可預(yù)測特定于類別的掩碼，即每個類別一個m×m掩碼。有趣的是，具有分類診斷掩碼的Mask R-CNN（即預(yù)測單個m×m輸出，與類別無關(guān)）幾乎一樣有效：它具有29.7個掩碼AP，而ResNet-50-C4上具有特定類別的掩碼的AP為30.3。這進一步突出了我們方法中的勞動分工，這在很大程度上使分類和細分脫鉤。
RoIAlign： 對我們建議的RoIAlign層的評估如表2c所示。在本實驗中，我們使用的ResNet50-C4骨干網(wǎng)已經(jīng)邁出了16步。與RoIPool相比，RoIAlign將AP提升了約3個點，其中大部分收益來自高IoU（AP75）。 RoIAlign對最大/平均池不敏感；我們在本文的其余部分中使用平均值。另外，我們與MNC [10]中提出的RoIWarp進行了比較，后者也采用了雙線性采樣。如第3節(jié)所述，RoIWarp仍會量化RoI，而與輸入失去一致性。從表2c中可以看出，RoIWarp的性能與RoIPool相當(dāng)，并且比RoIAlign差得多。這突出表明正確對齊是關(guān)鍵。我們還使用ResNet-50-C5主干評估RoIAlign，該主干的步幅更大，為32像素。我們使用與圖4（右）相同的頭，因為res5頭不適用。表2d顯示RoIAlign將掩模AP大幅提高7.3點，將掩模AP75提升10.5點（相對改善50％）。此外，我們注意到，使用RoIAlign，使用stride-32 C5功能（30.9 AP）比使用stride-16 C4功能（30.3 AP，表2c）更為準(zhǔn)確。 RoIAlign在很大程度上解決了使用大步距特征進行檢測和分割的長期挑戰(zhàn)。最后，RoIAlign與FPN一起使用時，增益為1.5掩膜AP和0.5盒式AP，具有更高的多級跨度。對于需要更精確對準(zhǔn)的關(guān)鍵點檢測，即使使用FPN，RoIAlign也顯示出很大的增益（表6）。
蒙版分支： 分割是一個像素到像素的任務(wù)，我們通過使用FCN利用蒙版的空間布局。在表2e中，我們使用ResNet-50-FPN主干比較了多層感知器（MLP）和FCN。使用FCN比MLP可獲得2.1的掩碼AP增益。我們注意到，我們選擇此主干是為了不對FCN頭的conv層進行預(yù)訓(xùn)練，以便與MLP進行公平比較。

4.3 邊界框檢測結(jié)果

我們在表3中將Mask R-CNN與最新的COCO邊界框?qū)ο髾z測進行了比較。對于此結(jié)果，即使訓(xùn)練了完整的Mask R-CNN模型，也僅在以下位置使用分類和框輸出推理（忽略掩碼輸出）。使用ResNet-101-FPN的Mask R-CNN優(yōu)于所有以前的最新模型的基本變量，包括GRMI的單模型變量[21]，這是COCO 2016檢測挑戰(zhàn)賽的冠軍。使用ResNeXt-101-FPN，Mask R-CNN進一步改善了結(jié)果，與[39]中使用最佳In-ResNet-v2-TDM的最佳單個模型條目相比，AP的裕度為3.0點框。作為進一步的比較，我們訓(xùn)練了Mask R-CNN的一個版本，但沒有Mask分支，在表3中用“ Faster R-CNN，RoIAlign”表示。由于RoIAlign，該模型的性能優(yōu)于[27]中提出的模型。另一方面，它的AP比Mask R-CNN低0.9點。因此，Mask R-CNN在盒子檢測上的差距僅歸因于多任務(wù)訓(xùn)練的優(yōu)勢。最后，我們注意到Mask R-CNN在其mask與框AP之間有一個小間隙：例如，在37.1（mask，表1）和39.8（box，表3）之間有2.7點。這表明我們的方法大大縮小了對象檢測與更具挑戰(zhàn)性的實例分割任務(wù)之間的差距。

4.4 時序

推斷： 我們按照Faster R-CNN的4步訓(xùn)練[36]，訓(xùn)練了一個在RPN和Mask R-CNN階段之間共享特征的ResNet-101-FPN模型。該模型在Nvidia Tesla M40 GPU上以每張圖像195ms的速度運行（加上15ms的CPU時間將輸出調(diào)整為原始分辨率），并且在統(tǒng)計上實現(xiàn)了與未共享的相同的模板AP。我們還報告說ResNet-101-C4變型的箱頭較重，大約需要400毫秒（圖4），因此我們不建議在實踐中使用C4變型。盡管Mask R-CNN速度很快，但我們注意到我們的設(shè)計并未針對速度進行優(yōu)化，例如，通過更改圖像大小和建議編號，可以實現(xiàn)更好的速度/精度折衷[21]，這超出了本文的范圍。
訓(xùn)練： Mask R-CNN訓(xùn)練也很快。在我們的同步8-GPU實施中，使用ResNet-50-FPN進行COCO trainval35k的培訓(xùn)需要32個小時（每16幅圖像的迷你批處理需要0.72s），而使用ResNet-101-FPN則需要44個小時。實際上，在火車上進行訓(xùn)練時，不到一天就能完成快速原型制作。我們希望這樣的快速培訓(xùn)將消除該領(lǐng)域的主要障礙，并鼓勵更多的人對這個具有挑戰(zhàn)性的主題進行研究。

5.Mask R-CNN 用于人體姿態(tài)估計

我們的框架可以輕松擴展到人體姿勢估計。我們將關(guān)鍵點的位置建模為一個熱口罩，并使用Mask R-CNN預(yù)測K個口罩，每種K個關(guān)鍵點類型（例如，左肩，右肘）都使用一個。此任務(wù)有助于證明Mask R-CNN的靈活性。我們注意到，由于我們的實驗主要是為了證明Mask R-CNN框架的一般性，因此我們的系統(tǒng)已利用了最少的人體姿勢領(lǐng)域知識。我們希望領(lǐng)域知識（例如建模結(jié)構(gòu)[6]）將補充我們的簡單方法。
實施細節(jié)： 在使分割系統(tǒng)適應(yīng)關(guān)鍵點時，我們會對分割系統(tǒng)進行了少量修改。對于實例的K個關(guān)鍵點中的每個關(guān)鍵點，訓(xùn)練目標(biāo)是單熱點m×m二進制掩碼，其中僅將單個像素標(biāo)記為前景。在訓(xùn)練期間，對于每個可見的地面真相關(guān)鍵點，我們將m2向softmax輸出上的交叉熵損失最小化（這鼓勵了要檢測的單點）。我們注意到，與實例細分一樣，K個關(guān)鍵點仍然被獨立對待。我們采用ResNet-FPN變體，關(guān)鍵點頭架構(gòu)與圖4（右）類似。關(guān)鍵點包括8個3×3 512-d轉(zhuǎn)換層的堆棧，然后是deconv層和2×雙線性放大，從而產(chǎn)生56×56的輸出分辨率。我們發(fā)現(xiàn)，關(guān)鍵點級別的定位精度需要相對較高的分辨率輸出（與蒙版相比）。在所有包含帶注釋的關(guān)鍵點的COCO trainval35k圖像上訓(xùn)練模型。為了減少過度擬合，當(dāng)此訓(xùn)練集較小時，我們使用從[640，800]像素中隨機采樣的圖像比例進行訓(xùn)練；推論是在800像素的單一尺度上。我們從0.02的學(xué)習(xí)率開始訓(xùn)練90k迭代，然后在60k和80k迭代中將其減少10。我們使用閾值為0.5的邊界框NMS。其他細節(jié)與第3.1節(jié)相同。
主要結(jié)果和消融： 我們評估人員關(guān)鍵點AP（APkp），并使用ResNet-50-FPN主干網(wǎng)進行實驗；附錄中將研究更多主干。表4顯示我們的結(jié)果（62.7 APkp）比使用多階段處理管道的COCO 2016關(guān)鍵點檢測獲勝者[6]高0.9點（請參見表4的標(biāo)題）。我們的方法相當(dāng)簡單和快捷。更重要的是，我們有一個統(tǒng)一的模型同時以5 fps的速度預(yù)測框，分段和關(guān)鍵點。在test-dev上添加一個細分分支（針對人員類別）可將APkp提升至63.1（表4）。有關(guān)最小化的多任務(wù)學(xué)習(xí)的更多信息，請參見表5。將mask分支添加到僅框式（即Faster R-CNN）或僅關(guān)鍵點的版本中，可以持續(xù)改善這些任務(wù)。但是，添加關(guān)鍵點分支會稍微減少盒子/遮罩AP，這表明雖然關(guān)鍵點檢測受益于多任務(wù)訓(xùn)練，但并不能幫助其他任務(wù)。盡管如此，共同學(xué)習(xí)所有三個任務(wù)可以使一個統(tǒng)一的系統(tǒng)有效地同時預(yù)測所有輸出（圖7）。我們還研究了RoIAlign對關(guān)鍵點檢測的影響（表6）。盡管此ResNet-50-FPN主干的步幅更小（例如，最好水平為4像素），但RoIAlign仍比RoIPool表現(xiàn)出顯著改善，并且APkp增加了4.4點。這是因為關(guān)鍵點檢測對定位精度更敏感。這再次表明對齊對于像素級定位（包括遮罩和關(guān)鍵點）至關(guān)重要。鑒于Mask R-CNN在提取對象邊界框，遮罩和關(guān)鍵點方面的有效性，我們希望它是用于其他實例級任務(wù)的有效框架。

附錄A：關(guān)于城市景觀的實驗

我們進一步報告關(guān)于城市景觀[7]數(shù)據(jù)集的實例分割結(jié)果。該數(shù)據(jù)集具有2975個火車，500 val和1525個測試圖像的精細注釋。它具有20k粗略訓(xùn)練圖像，沒有實例注釋，我們不使用它。所有圖像均為2048×1024像素。實例分割任務(wù)涉及8個對象類別，在精細訓(xùn)練集中的實例數(shù)量為：

此任務(wù)的實例分段性能由COCO樣式的掩碼AP（在IoU閾值上求平均值）來衡量；還報告了AP50（即IoU為0.5的掩碼AP）。
實施： 我們將Mask R-CNN模型與ResNet-FPN-50主干一起應(yīng)用；由于數(shù)據(jù)集較小，我們發(fā)現(xiàn)101層對應(yīng)對象的性能類似。我們使用從[800，1024]中隨機采樣的圖像比例（較短的一面）進行訓(xùn)練，從而減少了過擬合；推斷是在1024像素的單個范圍內(nèi)。我們使用每個GPU 1個圖像的最小批量大小（因此8個GPU上為8個），并針對24k迭代訓(xùn)練模型，從0.01的學(xué)習(xí)率開始，然后在18k迭代時將其降低到0.001。在此設(shè)置下，在一臺8-GPU機器上需要大約4個小時的培訓(xùn)。
結(jié)果： 表7將我們的結(jié)果與val和測試集上的最新技術(shù)進行了比較。在不使用粗略訓(xùn)練集的情況下，我們的方法可以在測試中達到26.2 AP，比以前的最佳入門（DIN [3]）相對提高了30％以上，也比SGN的25.0 [29]的同步工作要好。 DIN和SGN都使用精細+粗略數(shù)據(jù)。與僅使用精細數(shù)據(jù)的最佳條目（17.4 AP）相比，我們實現(xiàn)了約50％的改進。對于人員和汽車類別，Cityscapes數(shù)據(jù)集顯示大量類別內(nèi)重疊實例（每個圖像平均6個人和9輛汽車）。我們認為類別內(nèi)重疊是實例分割的核心困難。即使我們的方法沒有利用粗略的數(shù)據(jù)，我們的方法也顯示出這兩個類別相對于其他最佳條目的巨大改進（人均從21.8降低到40％?40％改善了30.5，汽車的人從39.4改進到了46.9?20％）。 Cityscapes數(shù)據(jù)集的主要挑戰(zhàn)是在低數(shù)據(jù)狀態(tài)下的訓(xùn)練模型，尤其是卡車，公共汽車和火車等類別的火車，其火車數(shù)量約為200-500.為了部分解決此問題，我們進一步報告了使用COCO預(yù)訓(xùn)練的結(jié)果。為此，我們從預(yù)先訓(xùn)練的COCO Mask R-CNN模型（隨機初始化騎手）中初始化Cityscapes中相應(yīng)的7個類別。我們針對4k次迭代對該模型進行了微調(diào)，其中3k次迭代會降低學(xué)習(xí)率，在給定COCO模型的情況下，訓(xùn)練需要約1個小時。經(jīng)COCO預(yù)訓(xùn)練的Mask R-CNN模型在測試中達到了32.0 AP，比僅精細模型提高了6點。這表明培訓(xùn)數(shù)據(jù)量發(fā)揮著重要作用。這也表明，關(guān)于“城市景觀”的方法可能受其低調(diào)學(xué)習(xí)性能的影響。我們證明了在此數(shù)據(jù)集上使用COCO預(yù)訓(xùn)練是一種有效的策略。最后，我們觀察到val和測試AP之間存在偏差，這也可以從[23，4，29]的結(jié)果中觀察到。我們發(fā)現(xiàn)這種偏差主要是由卡車，公共汽車和火車類別引起的，僅精細模型的val / test AP分別為28.8 / 22.8、53.5 / 32.2和33.0 / 18.6。這表明在這些類別上存在領(lǐng)域轉(zhuǎn)移，而這些類別的培訓(xùn)數(shù)據(jù)也很少。 COCO預(yù)培訓(xùn)有助于最大程度地改善這些類別的結(jié)果；但是，域偏移分別以38.0 / 30.1、57.5 / 40.9和41.2 / 30.9 val / test AP持續(xù)存在。請注意，對于人員和汽車類別，我們看不到任何此類偏差（val / test AP在±1點以內(nèi)）。關(guān)于城市景觀的示例結(jié)果如圖8所示。

附錄B：關(guān)于COCO的增強結(jié)果

作為一般框架，Mask R-CNN與為檢測/分段而開發(fā)的補充技術(shù)兼容，包括對快速/快速R-CNN和FCN進行的改進。在本附錄中，我們描述了一些可以改善原始結(jié)果的技術(shù)。由于其通用性和靈活性，在COCO 2017實例細分大賽中，三支獲勝團隊將Mask R-CNN用作框架，所有這些都大大超過了以前的技術(shù)水平。

實例分割和對象檢測

我們在表8中報告了Mask R-CNN的一些增強結(jié)果。總體而言，這些改進將Mask AP的5.1點（從36.7提升到41.8）和box AP的7.7點（從39.6提升到47.3）。每種模型的改進都一致地增加了遮罩AP和盒式AP，這顯示了對遮罩R-CNN框架的良好概括。接下來，我們將詳細說明改進之處。這些結(jié)果以及未來的更新可以通過我們在https://github.com/facebookresearch/Detectron上發(fā)布的代碼進行復(fù)制，并且可以作為將來研究的更高基準(zhǔn)。更新的基線：我們從更新的基線開始，該基線具有一組不同的超參數(shù)。我們將訓(xùn)練延長到180k迭代，其中在120k和160k迭代時學(xué)習(xí)率降低10。我們還將NMS閾值更改為0.5（從默認值0.3）。更新的基準(zhǔn)具有37.0掩碼AP和40.5框AP。端到端訓(xùn)練：所有以前的結(jié)果都使用階段性訓(xùn)練，即將RPN訓(xùn)練為第一階段，將Mask R-CNN訓(xùn)練為第二階段。 [37]之后，我們評估了聯(lián)合訓(xùn)練RPN和Mask RCNN的端到端（e2e）培訓(xùn)。我們在[37]中采用了“近似”版本，該版本僅通過忽略梯度w.r.t來計算RoIAlign層中的部分梯度。 RoI坐標(biāo)。表8顯示e2e訓(xùn)練可將蒙版AP提升0.6，框AP提升1.2。 ImageNet-5k預(yù)訓(xùn)練：在[45]之后，我們對在ImageNet的5k類子集上進行預(yù)訓(xùn)練的模型進行實驗（與標(biāo)準(zhǔn)1k類子集相反）。預(yù)訓(xùn)練數(shù)據(jù)的這種5倍增長同時改善了掩模和框1 AP。作為參考，[40]使用了多出約250倍的圖像（300M），并在其基線上報告了2-3框AP的改進。
訓(xùn)練時增強：訓(xùn)練時進行比例增強進一步改善了結(jié)果。在訓(xùn)練期間，我們從[640，800]像素中隨機采樣一個比例，并將迭代次數(shù)增加到260k（在200k和240k迭代時，學(xué)習(xí)率降低了10）。訓(xùn)練時間的增加可將蒙版AP提升0.6，將盒子AP提升0.8。模型體系結(jié)構(gòu)：通過將101層ResNeXt升級到152層對應(yīng)物[19]，我們觀察到掩模AP和0.6盒AP的增加。這表明更深層次的模型仍然可以改善COCO的結(jié)果。使用最近提出的非本地（NL）模型[43]，我們實現(xiàn)了40.3個蒙版AP和45.0個盒式AP。此結(jié)果沒有增加測試時間，并且該方法在測試時在Nvidia Tesla P100 GPU上以3fps的速度運行。測試時間擴充：我們將使用[400，1200]像素的比例評估的模型結(jié)果與100的步長以及水平翻轉(zhuǎn)相結(jié)合。這為我們提供了41.8模板AP和47.3盒式AP的單模型結(jié)果。以上結(jié)果是我們提交COCO 2017競賽（也使用了合奏，此處未討論）的基礎(chǔ)。據(jù)報道，實例分割任務(wù)的前三支獲勝團隊全部基于Mask R-CNN框架的擴展。

關(guān)鍵點檢測

我們在表9中報告了關(guān)鍵點檢測的增強結(jié)果。作為更新的基準(zhǔn)，我們將訓(xùn)練計劃擴展到了130k迭代，其中在100k和120k迭代時學(xué)習(xí)率降低了10。這樣可以將APkp提高約1點。用ResNet-101和ResNeXt-101替換ResNet-50會使APkp分別增加到66.1和67.3。使用一種稱為數(shù)據(jù)蒸餾的最新方法[35]，我們能夠利用COCO提供的其他120k未標(biāo)記圖像。簡而言之，數(shù)據(jù)提純是一種自我訓(xùn)練策略，它使用在標(biāo)記數(shù)據(jù)上訓(xùn)練的模型來預(yù)測未標(biāo)記圖像上的注釋，然后使用這些新注釋更新模型。 Mask R-CNN為這種自我訓(xùn)練策略提供了有效的框架。通過數(shù)據(jù)蒸餾，Mask R-CNN APkp提高了1.8點，達到69.1。我們觀察到Mask R-CNN可以從額外的數(shù)據(jù)中受益，即使這些數(shù)據(jù)沒有標(biāo)簽。通過使用與實例細分相同的測試時間擴充，我們將APkp進一步提高到70.4。
致謝： 我們要感謝Ilija Radosavovic對代碼發(fā)布和增強結(jié)果的貢獻，并感謝Caffe2團隊的工程支持。

參考文獻

[1] M. Andriluka, L. Pishchulin, P. Gehler, and B. Schiele. 2D
human pose estimation: New benchmark and state of the art
analysis. In CVPR, 2014. 8
[2] P. Arbelaez, J. Pont-Tuset, J. T. Barron, F. Marques, and ′
J. Malik. Multiscale combinatorial grouping. In CVPR,
2014. 2
[3] A. Arnab and P. H. Torr. Pixelwise instance segmentation
with a dynamically instantiated network. In CVPR, 2017. 3,
9
[4] M. Bai and R. Urtasun. Deep watershed transform for instance segmentation. In CVPR, 2017. 3, 9
[5] S. Bell, C. L. Zitnick, K. Bala, and R. Girshick. Insideoutside net: Detecting objects in context with skip pooling
and recurrent neural networks. In CVPR, 2016. 5
[6] Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh. Realtime multiperson 2d pose estimation using part affinity fields. In CVPR,
2017. 7, 8
[7] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. Enzweiler,
R. Benenson, U. Franke, S. Roth, and B. Schiele. The
Cityscapes dataset for semantic urban scene understanding.
In CVPR, 2016. 9
[8] J. Dai, K. He, Y. Li, S. Ren, and J. Sun. Instance-sensitive
fully convolutional networks. In ECCV, 2016. 2
[9] J. Dai, K. He, and J. Sun. Convolutional feature masking for
joint object and stuff segmentation. In CVPR, 2015. 2
[10] J. Dai, K. He, and J. Sun. Instance-aware semantic segmentation via multi-task network cascades. In CVPR, 2016. 2, 3,
4, 5, 6
[11] J. Dai, Y. Li, K. He, and J. Sun. R-FCN: Object detection via
region-based fully convolutional networks. In NIPS, 2016. 2
[12] R. Girshick. Fast R-CNN. In ICCV, 2015. 1, 2, 3, 4, 6
[13] R. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic
segmentation. In CVPR, 2014. 2, 3
[14] R. Girshick, F. Iandola, T. Darrell, and J. Malik. Deformable
part models are convolutional neural networks. In CVPR,
2015. 4
[15] B. Hariharan, P. Arbelaez, R. Girshick, and J. Malik. Simul- ′
taneous detection and segmentation. In ECCV. 2014. 2
[16] B. Hariharan, P. Arbelaez, R. Girshick, and J. Malik. Hyper- ′
columns for object segmentation and fine-grained localization. In CVPR, 2015. 2
[17] Z. Hayder, X. He, and M. Salzmann. Shape-aware instance
segmentation. In CVPR, 2017. 9
[18] K. He, X. Zhang, S. Ren, and J. Sun. Spatial pyramid pooling
in deep convolutional networks for visual recognition. In
ECCV. 2014. 1, 2
[19] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning
for image recognition. In CVPR, 2016. 2, 4, 7, 10
[20] J. Hosang, R. Benenson, P. Dollar, and B. Schiele. What ′
makes for effective detection proposals? PAMI, 2015. 2
[21] J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara,
A. Fathi, I. Fischer, Z. Wojna, Y. Song, S. Guadarrama, et al.
Speed/accuracy trade-offs for modern convolutional object
detectors. In CVPR, 2017. 2, 3, 4, 6, 7
[22] M. Jaderberg, K. Simonyan, A. Zisserman, and
K. Kavukcuoglu. Spatial transformer networks. In
NIPS, 2015. 4
[23] A. Kirillov, E. Levinkov, B. Andres, B. Savchynskyy, and
C. Rother. Instancecut: from edges to instances with multicut. In CVPR, 2017. 3, 9
[24] A. Krizhevsky, I. Sutskever, and G. Hinton. ImageNet classification with deep convolutional neural networks. In NIPS,
2012. 2
[25] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E.
Howard, W. Hubbard, and L. D. Jackel. Backpropagation
applied to handwritten zip code recognition. Neural computation, 1989. 2
[26] Y. Li, H. Qi, J. Dai, X. Ji, and Y. Wei. Fully convolutional
instance-aware semantic segmentation. In CVPR, 2017. 2,
3, 5, 6
[27] T.-Y. Lin, P. Dollar, R. Girshick, K. He, B. Hariharan, and ′
S. Belongie. Feature pyramid networks for object detection.
In CVPR, 2017. 2, 4, 5, 7
[28] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollar, and C. L. Zitnick. Microsoft COCO: Com- ′
mon objects in context. In ECCV, 2014. 2, 5
[29] S. Liu, J. Jia, S. Fidler, and R. Urtasun. SGN: Sequential grouping networks for instance segmentation. In ICCV,
2017. 3, 9
[30] J. Long, E. Shelhamer, and T. Darrell. Fully convolutional
networks for semantic segmentation. In CVPR, 2015. 1, 3, 6
[31] V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In ICML, 2010. 4
[32] G. Papandreou, T. Zhu, N. Kanazawa, A. Toshev, J. Tompson, C. Bregler, and K. Murphy. Towards accurate multiperson pose estimation in the wild. In CVPR, 2017. 8
[33] P. O. Pinheiro, R. Collobert, and P. Dollar. Learning to segment object candidates. In NIPS, 2015. 2, 3
[34] P. O. Pinheiro, T.-Y. Lin, R. Collobert, and P. Dollar. Learn- ′
ing to refine object segments. In ECCV, 2016. 2, 3
[35] I. Radosavovic, P. Dollar, R. Girshick, G. Gkioxari, and ′
K. He. Data distillation: Towards omni-supervised learning.
arXiv:1712.04440, 2017. 10
[36] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS, 2015. 1, 2, 3, 4, 7
[37] S. Ren, K. He, R. Girshick, and J. Sun. Faster R-CNN: Towards real-time object detection with region proposal networks. In TPAMI, 2017. 10
[38] A. Shrivastava, A. Gupta, and R. Girshick. Training regionbased object detectors with online hard example mining. In
CVPR, 2016. 2, 5
[39] A. Shrivastava, R. Sukthankar, J. Malik, and A. Gupta. Beyond skip connections: Top-down modulation for object detection. arXiv:1612.06851, 2016. 4, 7
[40] C. Sun, A. Shrivastava, S. Singh, and A. Gupta. Revisiting
unreasonable effectiveness of data in deep learning era. In
ICCV, 2017. 10
[41] C. Szegedy, S. Ioffe, and V. Vanhoucke. Inception-v4,
inception-resnet and the impact of residual connections on
learning. In ICLR Workshop, 2016. 7
[42] J. R. Uijlings, K. E. van de Sande, T. Gevers, and A. W.
Smeulders. Selective search for object recognition. IJCV,
2013. 2
[43] X. Wang, R. Girshick, A. Gupta, and K. He. Non-local neural
networks. arXiv:1711.07971, 2017. 10
[44] S.-E. Wei, V. Ramakrishna, T. Kanade, and Y. Sheikh. Convolutional pose machines. In CVPR, 2016. 8
[45] S. Xie, R. Girshick, P. Dollar, Z. Tu, and K. He. Aggregated ′
residual transformations for deep neural networks. In CVPR,
2017. 4, 10

圖片完全搬運自論文，基本上是機翻，自己做了一些修改，后續(xù)還會繼續(xù)校對
小白一枚，記下翻譯便于自己的理解，有理解翻譯不到位的地方請指正，侵刪

總結(jié)

以上是生活随笔為你收集整理的Mask R-CNN论文的全部內(nèi)容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網(wǎng)站內(nèi)容還不錯，歡迎將生活随笔推薦給好友。

上一篇： unity材质球发光_Unity利用材质
下一篇：谈谈科研论文的追踪、管理和阅读