CVPR 2019 | 目标检测之面向更高精度的包围框回归
CVPR 2019 | 目標檢測之面向更高精度的包圍框回歸
- 背景介紹
- 主要內容
- 包圍框參數化
- 用于包圍框回歸的KL loss
- 測試階段的方差投票機制
- 實驗分析
- 實驗細節:
- 實驗結果:
- 總結
- 參考文獻
本文為極市作者Panzer原創,歡迎加小助手微信(cv-mart) 備注:研究方向-姓名-學校/公司-城市(如:目標檢測-小極-北大-深圳),即可申請加入目標檢測、目標跟蹤、人臉、工業檢測、醫學影像、三維&SLAM、圖像分割等極市技術交流群。
本文由CMU和曠視科技合作發表于CVPR2019,論文重點關注目標檢測任務中的包圍框回歸問題,提出了一種區別于傳統smooth L1的新的損失函數,顯著提升了各類檢測器的定位精度。
論文地址:
http://openaccess.thecvf.com/content_CVPR_2019/html/He_Bounding_Box_Regression_With_Uncertainty_for_Accurate_Object_Detection_CVPR_2019_paper.html
代碼地址:
https://github.com/yihui-he/KL-Loss
背景介紹
在當前anchor-based類目標檢測器中,目標包圍框回歸是一個不可或缺的組件,其目的是為了得到更緊致的更好地包圍在目標周圍的檢測框。盡管近年來anchor-based類目標檢測取得了長足進展,分類精度得到了突飛猛進的提升,大量的工作主要集中與網絡架構的設計、正負樣本的選取等,然而少有工作關注包圍框回歸的問題。
從這一問題出發,作者分析了目前檢測器中通用的smooth L1損失函數的局限性,提出了一種新的包圍框回歸損失函數——KL loss,在網絡預測階段更有利于得到更高定位精度的檢測結果。作者通過在PASCAL VOC 2007和MS-COCO上的實驗驗證了該損失函數的有效性。
主要內容
包圍框參數化
目前檢測器中常用目標中心點坐標和寬高來表示一個包圍框,網絡只要預測與anchor-box的偏差!,然后和利用ground truth計算得到的真實偏差進行比對得到訓練損失,如下式所示:
而本文采用上頂點下頂點坐標來表示一個包圍框,在預測目標位置的同時還要預測定位置信度。具體而言,將定位置信度簡化建模為一個高斯分布,如下式所示:
其中是需要網絡進行學習的參數,高斯函數中的標準差代表預測值的不確定性,也即當其趨于0時意味著預測值置信度非常高。這一思路的具體實現為在原有檢測頭的類別分類和位置回歸兩個分支之外,再添加一個新的分支如下圖所示:
同樣ground truth也可以構建為一個標準差趨于0的高斯分布,如下式所示:
用于包圍框回歸的KL loss
根據上一節的參數表示,本文的包圍框回歸分支的目的是最小化式(2)和(3)中的和之間的KL散度,如下式所示:
則包圍框回歸部分的損失函數定義如下:
上式后兩部分和網絡預測無關,所以包圍框回歸部分的損失函數只和前兩部分有關:
對于不太準確的位置預測,上式會驅使網絡預測更大的使得損失最小。具體實現細節在此不再贅述,詳情可見原文。
測試階段的方差投票機制
對于測試階段而言,作者希望利用網絡預測的方差用于非極大值抑制(NMS)后處理階段來提高包圍框的定位精度。具體而言,對于一個分類得分較高的包圍框周圍的包圍框而言,我們希望將那些離它最近且定位不確定性較低的包圍框分配更高的權重,如下式所示:
本質上該機制主要用于nms或soft-nms中,算法流程圖如下:
實驗分析
實驗細節:
驗證實驗在PASCAL VOC 2007和MS-COCO上進行,對比實驗分別在CityPersons驗證集和Caltech測試集上和最新方法進行了全方位對比,評估指標采用行人檢測通用的Miss rate。
實驗結果:
從上表中的剝離實驗結果分析,以AP為標準,利用KL loss帶來的性能提升有1.6個點,而在soft-nms的基礎上加上方差投票機制,又可以提升1.3個點,隨著對精度要求的提高,性能提升更為明顯。此外值得一提的是加上方差投票機制只帶來2ms的耗時,顯然是一種經濟有效的漲點方案。
在上表中作者分析了不同檢測頭對采用KL loss能帶來的性能提升的影響,從上表中可以發現,無論采用什么樣的檢測頭,采用KL loss帶來的性能提升是一致的,但利用resnet-50第五階段卷積層作為檢測頭可以得到最明顯的性能提升,而采用兩層全連接層限制了KL loss帶來的性能提升。
上表給出了在MS-COCO上的實驗結果,作者采用的baseline為ResNet-50-FPN Mask R-CNN,在soft-nms的加持下,本文所提出的方法可以將baseline提升1.8個點,有意思的是在AP50的評估標準下,性能指標卻有所下降,而在AP90評估標準下性能提升有6.2個點,充分說明了本文所提出的方法可以獲得較高的定位性能。
上表展示了在PASCAL VOC 2007上的實驗結果,可見無論在采用什么基礎網絡架構下,本文提出的方法都能將mAP性能提升2-3個百分點。下圖給出了本文方法有效性的一個可視化例子,從上下兩列的對比來看,經過網絡預測的位置不確定性加權,包圍框能更緊致地包圍在目標周圍。
總結
本文另辟蹊徑,重點關注目標包圍框的位置不確定性問題,圍繞這一問題,在訓練和測試階段分別進行了精心設計,在訓練階段提出了KL loss,測試階段提出了方差投票機制,實驗結果充分證明了提出方法的有效性。值得一提的是,發表于ICCV 2019的Gaussian YoloV3[1]與本文有異曲同工之妙,將在后續進行解讀。
參考文獻
[1] Gaussian YOLOv3: An Accurate and Fast Object Detector Using Localization Uncertainty for Autonomous Driving. ICCV2019.
-End-
相關文章:
目標檢測:Anchor-Free 時代
目標檢測中的不平衡問題綜述
DetNAS:首個搜索目標檢測 Backbone 的方法
△ 關注極市平臺
總結
以上是生活随笔為你收集整理的CVPR 2019 | 目标检测之面向更高精度的包围框回归的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ICCV 2019 最佳论文和最佳学生论
- 下一篇: ICCV 2019 | SPM:单阶段人