ICCV2019论文点评:3D Object Detect疏密度点云三维目标检测
ICCV2019論文點評:3D Object Detect疏密度點云三維目標檢測
STD: Sparse-to-Dense 3D Object Detector for
Point Cloud
論文鏈接:https://arxiv.org/pdf/1907.10471.pdf
本文在LITTI數據集3D Object Detection三維目標檢測性能排名第5。
摘要
提出了一種新的兩級三維目標檢測框架,稱為稀疏到稠密三維目標檢測框架(STD)。第一階段是一個自下而上的提案生成網絡,它使用原始點云作為輸入,通過為每個點播種一個新的球形錨來生成準確的提案。與以往的工作相比,該方法具有較高的查全率和較少的計算量。然后,通過將提議特征的內部點特征從稀疏表達式轉換為緊湊表示,利用PointsPool生成提議特征,從而節省了更多的計算時間。在第二階段的盒內預測中,本文實現了一個并行交并(IoU)分支,以提高定位精度,從而進一步提高了性能。本文在KITTI數據集上進行了實驗,并從三維物體和鳥瞰圖(BEV)檢測兩個方面對本文的方法進行了評價。本文的方法在很大程度上優于其他技術,特別是在硬集上,推理速度超過10 FPS。
Introduction
本文在KITTI數據集上評估本文的模型[1]。實驗表明,本文的模型在BEV和3D目標檢測任務方面都優于其他狀態下的模型,特別是對于困難的例子。本文的主要貢獻是多方面的。
提出了一種基于點的球形錨定點云目標檢測方案生成模型。它是通用的,以實現高召回率。
?提議的PointsPool層集成了基于點和體素的方法的優點,實現了高效的預測。 ?新的3D IoU預測分支有助于分類性能和本地化之間的一致性,導致顯著改善。在KITTI數據集上的實驗結果表明,本框架處理了許多具有高遮擋和擁擠度的挑戰性案例,并獲得了最新的性能。此外,在設計中,在10 FPS的速度下可以獲得良好的性能。
Related Work
l 三維語義分割在點云上處理語義分割有多種方法。
在[33]中,投影函數將激光雷達點轉換為紫外線地圖,然后在像素級通過二維語義分割[33,36,3]對其進行分類。在[6,5]中,基于多視圖的功能生成分割掩碼。這種方法融合了來自不同視圖的信息。其他解決方案,如[28、27、18、12、17],從原始激光雷達數據中分割點云。它們直接在每個點上生成特征,同時保留原始的結構信息。最大池化方法收集全局特征。然后將其與本地特征連接起來進行處理。
l 三維目標檢測
三維目標檢測有三條不同的線。它們是多視圖、體素和基于點的方法。
對于多視圖方法,MV3D[4]將LiDAR點云投影到BEV,并訓練區域建議網絡(RPN)以生成積極的建議。它融合了BEV、圖像視圖和前視圖的功能,以生成重新定義的三維邊界框。AVOD[14]通過融合圖像和BEV功能(如[20])改進了MV3D。與MV3D不同,MV3D只在增強階段合并特性,它也在RPN階段合并來自多個視圖的特性以生成積極的建議。這些方法在檢測行人、自行車等小目標時仍有局限性。它們不處理深度方向上有多個對象的情況。
有幾種基于LiDAR數據庫的體素網格三維目標檢測框架。在[32]中,每個非空體素由該體素內的點用6個統計量編碼。[16]中對每個體素網格使用二進制編碼。在PIXOR[35]中,每個體素網格被編碼為占用。所有這些方法都使用手工制作的表示。體素網[37]相反,堆疊許多VFE層來為每個體素生成機器學習的表示。與[37]相比,第二[34]使用稀疏卷積層[10]來解析緊湊表示。PointPillars[15]使用偽圖像作為體素化后的表示。
F-PointNet[26]是第一種利用原始點云預測三維物體的方法。它使用來自二維目標檢測作為候選框,并基于內部點回歸預測。因此,性能很大程度上依賴于二維目標檢測器。不同的是,PointRCNN[30]使用整個點云來生成,而不是二維圖像。它直接使用提案中心點的分段效率進行分類位置信息。其他特征如大小和方向被忽略。相比之下,設計一般是利用點云強大的表示能力。
Framework
本文方法是一個兩階段的三維物體檢測框架,利用了體素和基于點的方法的優點。為了產生精確的基于點的方案,設計了球形錨和一種新的策略分配標簽錨。對于每個生成的方案,
部署一個新的PointsPool層,將基于點的特征從稀疏表達式轉換為密集表示。采用box預測網絡進行最終預測。框架如圖1所示。
每個方案的動機,最直接的最終預測方法是基于內部點執行PointNet++[30,26]。盡管簡單,但與傳統的卷積或全連接(FC)層相比,數據集抽象(SA)等操作的計算代價更高。如表1所示,在100個方案中,PointNet++基線在推斷期間需要41ms,而純FC層需要16ms。它幾乎比基線快2.5倍,性能下降僅0.4%。此外,與點網基線相比,具有FC層的模型只需額外6毫秒,性能就提高了1.6%。這是因為點網回歸頭使用較少的局部信息。
IoU估計分支在回顧工作[15,34,37,14,30]中,NMS被應用于box估計的結果以去除重復的預測。分類效率用于NMS期間的排名。文獻[11,22,29]指出,盒子的分類效率與定位質量沒有顯著的相關性。同樣,分類效率和盒子質量之間的弱相關性也會影響基于點的目標檢測任務。考慮到用于自動駕駛的激光雷達通常以固定角度收集,并且部分覆蓋物體,定位精度對可見部分與其全視圖之間的相對位置極其敏感,而分類分支無法提供足夠的信息。如表2所示,如果本文將每個預測框的oracle IoU值(而不是分類分數)提供給NMS進行重復刪除,性能將提高約12.6%。
Loss Function
使用多任務丟失來訓練本文的網絡。本文的總損失由生成損耗Lprop和box預測損耗Lbox組成
- Experiments
為了對測試集進行評估,本文在分割的train/val集上以4:1的比率訓練模型。表3列出了本文方法的性能以及與以前方法的比較。本文的模型比其他方法在汽車和自行車類上有很大的優勢,特別是在hard集上。與使用其他傳感器作為附加信息的多視圖方法相比,本文的方法只需輸入原始點云就可以獲得更高的AP。與Uber-ATG-MMF[19]相比,STD在汽車三維檢測的moderate水平上優于Uber-ATG-MMF[19]。在hard集上也得到了7.65%的大幅度提高,表明了本文的方案生成模塊和IoU分支的有效性。
注意,在行人級別上,STD仍然是僅有激光雷達的探測器中最好的。多傳感器檢測器工作得更好,因為行人身上幾乎沒有3D點,因此很難將其與其他小物體(如指示器電傳孔)區分開來,如圖3所示。在這些情況下,RGB的額外信息會有所幫助。與僅使用激光雷達的探測器、體素或點方法相比,我們的方法在所有三種類型上都最有效。具體來說,在車輛檢測方面,與PointRCNN[30]、PointPillars[15]和SECOND[34]相比,STD的AP分別提高了1.87%、2.64%和3.97%。hard數據集的改善更為顯著,分別提高了7.74%、7.76%和9.86%。我們在圖4中給出了幾個定性結果。
5. Conclusion
本文提出了一種新的兩階段三維目標檢測框架,它同時利用了基于體素和基于點的方法。本文引入基于點的球形錨,并重新定義它們,以便在第一階段準確地生成方案,而不會丟失定位信息。然后應用PointsPool層生成方案的緊湊表示,這有利于減少推理時間。第二階段減少不正確的損失后處理,進一步提高性能。本文的模型可以很好地進行三維檢測,特別是在hard 數據集上。
總結
以上是生活随笔為你收集整理的ICCV2019论文点评:3D Object Detect疏密度点云三维目标检测的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CVPR2020论文解读:3D Obje
- 下一篇: CVPR2020论文解析:视频分类Vid