Mask R-CNN为什么“家喻户晓”
目標檢測和語義分割技術通過強大的目標檢測框架和語義分割框架取得顯著進步,這些方法提供了靈活性、魯棒性,快速的訓練。
對象分割要求正確檢測圖像中所有目標的同時精確地分割每個實例。因此,結合對象檢測的經典計算機視覺任務的元素,其中的目標是分類單個對象和使用邊界框定位每個對象和語義分割,目標是將每個像素分類為一組固定的類別,不區分對象實例。何愷明團隊證明了這一點一個非常簡單、靈活和快速的系統Mask R-CNN可以超越它先前最先進的實例分割結果。
該方法,稱為Mask R-CNN。
文章傳送門:https://arxiv.org/abs/1703.06870
“家喻戶曉”的Mask R-CNN是圖像分割領域中非常經典的實例分割(Instance segmentation)算法。Mask R-CNN不僅在實例分割任務中表現優異,還是一個非常靈活的框架,可以通過增加不同的分支完成目標分類、目標檢測、語義分割、實例分割、人體姿勢識別等多種不同的任務。
Mask R-CNN擴展了Faster R-CNN通過添加一個分支來預測分割掩碼在每個感興趣區域(RoI)上,與現有分支并行進行分類和邊界框回歸。
Mask R-CNN
本質上,Mask R-CNN是一種直觀的延伸Faster R-CNN,但構建掩模分支正確是取得好結果的關鍵。最重要的是,更快的RCNN不是為網絡輸入和輸出之間的像素對像素對齊而設計的。這一點在RoIPool是處理實例的實際核心操作,它如何執行粗空間量化特征提取。為了解決這個問題,我們提出了一個簡單的,無量化的層,叫做RoIAlign忠實地保留精確的空間位置。
盡管看似很小的變化,RoIAlign卻有很大的影響:
提高掩模精度10%到50%,顯示在更嚴格的標準下獲得更大的收益。有必要解耦掩碼和類預測,為每個類單獨預測一個二進制掩碼,而不依賴于網絡的投資回報率分類分支預測類別。
基本結構——two-state結構:一階段網絡找出RPN;對RPN找到的每個RoI進行分類、定位、并找到binary mask。Mask Representation:結構中沒有采用全連接層,而使用了RoIAlign,并是在一個小feature map上做分割。RoIAlign:為從RPN網絡確定的ROI中導出較小的特征圖。RPN網絡會提出若干RoI的坐標,然后輸入RoI Pooling,輸出供分類和定位使用的特征圖。
效果:Mask RCNN的分割效果好于FCIS,尤其在目標重合的部分。
Mask RCNN精度高于Faster RCNN。Mask RCNN的分割任務得分與定位任務得分相近。
Mask R-CNN預測效果:
文章傳送門:https://arxiv.org/abs/1703.06870
總結
以上是生活随笔為你收集整理的Mask R-CNN为什么“家喻户晓”的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 甘孜州公积金签约楼盘
- 下一篇: 龙江家具特色及价格介绍