详解两阶段3D目标检测网络PVRCNN:Point-Voxel Feature Set Abstraction for 3D Object Detection
在《動手學(xué)無人駕駛(4):基于激光雷達(dá)點(diǎn)云數(shù)據(jù)3D目標(biāo)檢測》一文中介紹了3D目標(biāo)檢測網(wǎng)絡(luò)PointRCNN。今天介紹該作者新提出的3D檢測模型:PVRCNN,論文已收錄于CVPR2020。
作者個人主頁為:https://sshaoshuai.github.io/。
知乎ID為:https://www.zhihu.com/people/yilu-kuang-shuai。
PVRCNN論文鏈接為:https://arxiv.org/pdf/1912.13192.pdf。
代碼鏈接為:https://github.com/open-mmlab/OpenPCDet。
在介紹論文前,大家可以先看看作者此前分享的3D目標(biāo)檢測報(bào)告:https://www.bilibili.com/video/av89811975?zw
基于點(diǎn)云場景的三維物體檢測算法及應(yīng)用
文章目錄
- 1. PVRCNN算法
- 1.1 3D Voxel CNN for Efficient Feature Encoding and Proposal Generation
- 1.2 Voxel-to-keypoint Scene Encoding via Voxel Set Abstraction
- 1.3 Keypoint-to-grid RoI Feature Abstraction for Proposal Refinement
- 2. Experiments
1. PVRCNN算法
在目前的點(diǎn)云目標(biāo)檢測中,3D voxel CNNs可以生成高質(zhì)量的proposals;而基于PointNet的方法由于其感受野靈活,可以捕獲更準(zhǔn)確的目標(biāo)位置信息。
在本文中,作者對這兩種檢測方法進(jìn)行集成,首先使用3D voxel CNNs作為主干網(wǎng)來生成高質(zhì)量的proposalas,然后在每一個proposal中,為了充分有效池化點(diǎn)云特征,作者提出了兩種新的池化方式:Voxel-to-keypoint scene encoding與keypoint-to-grid ROI feature abstraction。通過這兩種池化方法,能夠有效提高預(yù)測可信度以及對目標(biāo)位置進(jìn)行優(yōu)化。
1.1 3D Voxel CNN for Efficient Feature Encoding and Proposal Generation
這部分相對比較好理解,使用3D CNNs作為主干網(wǎng),將輸入的點(diǎn)云劃分為一個個voxel。作者總共進(jìn)行了4次下采樣,最后投影到鳥瞰圖上,生成proposal。從結(jié)果可以看出,這種生成proposal的方式有著更高的召回率。
1.2 Voxel-to-keypoint Scene Encoding via Voxel Set Abstraction
PointNet中提出的set abstraction operation顯示出了強(qiáng)大的特征提取能力,能夠?qū)θ我饪臻g尺寸的點(diǎn)云集進(jìn)行特征抽取。受此啟發(fā),作者提出了將多個voxels的特征聚合到keypoints上。
具體地操作如下,其中lkl_klk?表示第kkk層網(wǎng)絡(luò),pip_ipi?表示為keypoint,vj(lk)v_{j}^{(l_k)}vj(lk?)?表示為第kkk層網(wǎng)絡(luò)中voxel坐標(biāo),fj(lk)f_{j}^{(l_k)}fj(lk?)?表示為voxel隊(duì)以應(yīng)地特征向量。這樣就組成每個keypoint鄰域集SilkS_{i}^{l_k}Silk??:包括voxel特征向量及voxel與keypoint之間地相對位置。
然后是對SilkS_{i}^{l_k}Silk??進(jìn)行一次maxmaxmax操作。具體操作如下,其中MMM表示在集合SilkS_{i}^{l_k}Silk??中最多選取出TkT_kTk?個voxels,GGG表示進(jìn)行多層感知機(jī)操作,最外層是maxmaxmax操作。最終生成地每個keypoint特征為fipvkf_{i}^{{pv}_k}fipvk??。
對每一層3D CNNs網(wǎng)絡(luò)都進(jìn)行上述VSA操作,這樣就得到了keypoint結(jié)合后地特征fi(pv)f_{i}^{{(pv)}}fi(pv)?。
1.3 Keypoint-to-grid RoI Feature Abstraction for Proposal Refinement
經(jīng)過上面的處理,得到了一組含有多尺度語義特征的關(guān)鍵點(diǎn)集(keypoints with multi-scale semantic features)
。
為了進(jìn)一步優(yōu)化,作者在這里提出了keypoint-to-grid RoI feature abstraction,如下圖4所示。
首先在每一個候選方案(proposal)中,統(tǒng)一采樣6×6×66\times6\times66×6×6個gird points。這里的采樣公式如下,其中gig_igi?表示為grid points,pjp_jpj?表示為keypoint,f~j(p)\widetilde f^{(p)}_{j}f?j(p)?表示為關(guān)鍵點(diǎn)特征。
然后使用一個PointNet-block得到grid point特征,具體方法如下:
最后通過兩層MLP網(wǎng)絡(luò),得到256維的特征向量。
2. Experiments
下圖是論文作者在KITTI數(shù)據(jù)集提交的結(jié)果(截至2020年11月22日),目前排在第15位,是榜上唯一開源的方案。
總的來說,作者提出的voxel-based和PointNet-based方法還是很創(chuàng)新的,值得借鑒。
總結(jié)
以上是生活随笔為你收集整理的详解两阶段3D目标检测网络PVRCNN:Point-Voxel Feature Set Abstraction for 3D Object Detection的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 2017交行信用卡进度查询方法 随时随地
- 下一篇: ANSI X9.19 MAC算法介绍