详解3D物体检测模型 SPG: Unsupervised Domain Adaptation for 3D Object Detection via Semantic Point Generation
本文對(duì)基于激光雷達(dá)的無(wú)監(jiān)督域自適應(yīng)3D物體檢測(cè)進(jìn)行了研究,論文已收錄于 ICCV2021。
在Waymo Domain Adaptation dataset上,作者發(fā)現(xiàn)點(diǎn)云質(zhì)量的下降是3D物件檢測(cè)器性能下降的主要原因。因此論文提出了Semantic Point Generation (SPG)方法,首先在預(yù)測(cè)的前景點(diǎn)區(qū)域生成語(yǔ)義點(diǎn)云,復(fù)原前景點(diǎn)物體缺失的部分。然后,將原始點(diǎn)云與生成的語(yǔ)義點(diǎn)云進(jìn)行融合得到增強(qiáng)后的點(diǎn)云數(shù)據(jù),再使用通用的3D物體檢測(cè)器進(jìn)行檢測(cè)。在Waymo 和 KITTI 數(shù)據(jù)集上,無(wú)論是在target domain 還是 source domain上,本文提出的SPG方法都大幅提高了3D物檢檢測(cè)器的性能。
論文鏈接為:https://arxiv.org/pdf/2108.06709v1.pdf
1. Introduction
首先是引出本文要解決的問(wèn)題:Waymo Open Dataset (OD)數(shù)據(jù)集是在California和Arizona收集的,而Waymo Kirkland Dataset (Kirk)是在Kirk收集的,這里將OD數(shù)據(jù)當(dāng)作source domain,Kirk數(shù)據(jù)當(dāng)作target domain。
作者使用PointpPllars模型在OD訓(xùn)練集上訓(xùn)練,然后在OD和Kirk驗(yàn)證集上進(jìn)行驗(yàn)證。從表1可以看出,雨天下收集到的點(diǎn)云質(zhì)量下降很厲害,平均每幀缺失點(diǎn)數(shù)幾乎是干燥天氣下的兩倍,檢測(cè)性能也下降了27%左右;同時(shí)從Range Image上也可以看出雨天下物體點(diǎn)云缺失的區(qū)域也更不規(guī)則。
2. Semantic Point Generation
本文提出的SPG輔助檢測(cè)方法如下圖所示,SPG首先在預(yù)測(cè)的前景點(diǎn)區(qū)域生成語(yǔ)義點(diǎn)集,然后語(yǔ)義點(diǎn)集與原始點(diǎn)云相結(jié)合得到增強(qiáng)點(diǎn)云 PCaugPC_{aug}PCaug?,最后再使用一個(gè)點(diǎn)云檢測(cè)器得到檢測(cè)結(jié)果。
2.1 Training Targets
設(shè)原始輸入點(diǎn)云為 PCraw={p1,p2,...,pN}∈R3+FPC_{raw}=\{p_1,p_2,...,p_N\} \in \mathbb{R}^{3+F}PCraw?={p1?,p2?,...,pN?}∈R3+F,333 表示點(diǎn)云坐標(biāo),FFF 表示點(diǎn)云屬性。
- SPG首先將原始點(diǎn)云劃分為一個(gè)個(gè)Voxel,對(duì)于每一個(gè)Voxel,模型首先預(yù)測(cè)其為前景Voxel的概率 P~f\tilde{P}^{f}P~f,然后在每一個(gè)前景Voxel生成語(yǔ)義點(diǎn)集 sp~\tilde {sp}sp~?,其特征為 ψ~=[χ~,f~]\tilde{\psi}=[\tilde{\chi}, \tilde{f}]ψ~?=[χ~?,f~?],分別表示語(yǔ)義點(diǎn)集的坐標(biāo)和屬性。
- 在與原始點(diǎn)云融合時(shí)只保留置信度超過(guò) PthreshP_{thresh}Pthresh? 的 KKK 個(gè)點(diǎn),得到增強(qiáng)后的點(diǎn)云PCaug={p^1,p^2,…,p^N,sp~1,sp~2,…,sp~K}∈R3+F+1PC_{aug}=\left\{\hat{p}_{1}, \hat{p}_{2}, \ldots, \hat{p}_{N}, \tilde{s p}_{1}, \tilde{s p}_{2}, \ldots, \tilde{s p}_{K}\right\} \in \mathbb{R}^{3+F+1}PCaug?={p^?1?,p^?2?,…,p^?N?,sp~?1?,sp~?2?,…,sp~?K?}∈R3+F+1,最后一個(gè)通道表示點(diǎn)為前景點(diǎn)的置信度,原始點(diǎn)云則置信度為 1.01.01.0,語(yǔ)義點(diǎn)集則置信度為 P~f\tilde{P}^fP~f。
在訓(xùn)練時(shí),如果劃分的Voxel為前景voxel VfV^fVf,則其對(duì)應(yīng)類別 yif=1y_i^f=1yif?=1,否則為 yif=0y_i^f=0yif?=0。如果劃分的Voxel非空的話, 令 ψi=[χˉi,fˉi]\psi_{i}=\left[\bar{\chi}_{i}, \bar{f}_{i}\right]ψi?=[χˉ?i?,fˉ?i?] 為回歸目標(biāo),其中 χiˉ\bar{\chi_i}χi?ˉ? 為Voxel中所有前景點(diǎn)的平均坐標(biāo),fˉi\bar{f}_ifˉ?i? 為前景點(diǎn)的屬性平均值。
2.2 Model Structure
SPG模型結(jié)構(gòu)由三部分組成:
- 首先是Voxle特征編碼模塊,對(duì)每一個(gè)Voxel進(jìn)行特征學(xué)習(xí),編碼成pillars投影到鳥(niǎo)瞰圖;
- 然后是信息傳播模塊,將非空pillars語(yǔ)義信息傳播到附近非空pillars;
- 最后是語(yǔ)義點(diǎn)集生成模塊,在每一個(gè)前景Voxel生成語(yǔ)義點(diǎn)集 sp~i=[χ~i,f~i,P~if]\tilde{sp}_i=\left[\tilde{\chi}_{i}, \tilde{f}_{i}, \tilde{P}_{i}^{f}\right]sp~?i?=[χ~?i?,f~?i?,P~if?]。
2.3 Foreground Region Recovery
為了在 empty areas 生成語(yǔ)義點(diǎn)集,作者設(shè)計(jì)了兩個(gè)策略Hide and Predict和Semantic Area Expansion。
- Hide and Predict。原始點(diǎn)云 PCrawPC_{raw}PCraw? 劃分為Voxel集合 V={v1,v2,...,vM}V=\{v_1,v_2,...,v_M\}V={v1?,v2?,...,vM?},在訓(xùn)練時(shí),丟棄 γ%\gamma\%γ%的非空Voxel VhideV_{hide}Vhide?,SPG需要預(yù)測(cè)出這些隱藏的Voxel標(biāo)簽 yfy^fyf和對(duì)應(yīng)點(diǎn)特征 ψ~\tilde{\psi}ψ~?。
- Semantic Area Expansion。作者設(shè)計(jì)了一個(gè)擴(kuò)展語(yǔ)義區(qū)域策略(圖5所示),用以在empty space生成語(yǔ)義點(diǎn)集。具體地,非空和空的背景Voxel為 Vob,VebV_o^b,V_e^bVob?,Veb?,其對(duì)應(yīng)標(biāo)簽為 yf=0y^f=0yf=0;非空前景Voxel VofV_o^fVof? 類別標(biāo)簽 yf=1y^f=1yf=1;bounding box中空的前景Voxel VefV_e^fVef? 類別標(biāo)簽為 yf=1y^f=1yf=1,同時(shí)增加一個(gè)權(quán)重系數(shù) α<1\alpha < 1α<1;監(jiān)督學(xué)習(xí)非空前景Voxel VofV_o^fVof? 點(diǎn)集特征 ψ\psiψ。圖6為是否使用Expansion生成語(yǔ)義點(diǎn)集的效果。
2.4 Objectives
損失函數(shù)有兩個(gè),一個(gè)是類別損失函數(shù),其中 VoV_oVo? 為非空Voxel,VebV_e^bVeb? 為空的背景Voxel,VefV_e^fVef? 為空的前景Voxel,VhideV_{hide}Vhide? 為隱藏的Voxel。
Lcls=1∣Vo∪Veb∣∑Vo∪VebLfocal?+α∣Vef∣∑VefLfocal?+β∣Vhide?∣∑Vhide?Lfocal?\begin{aligned} L_{c l s} &=\frac{1}{\left|V_{o} \cup V_{e}^{b}\right|} \sum_{V_{o} \cup V_{e}^{b}} L_{\text {focal }} +\frac{\alpha}{\left|V_{e}^{f}\right|} \sum_{V_{e}^{f}} L_{\text {focal }}+\frac{\beta}{\left|V_{\text {hide }}\right|} \sum_{V_{\text {hide }}} L_{\text {focal }} \end{aligned} Lcls??=∣Vo?∪Veb?∣1?Vo?∪Veb?∑?Lfocal??+∣∣∣?Vef?∣∣∣?α?Vef?∑?Lfocal??+∣Vhide??∣β?Vhide??∑?Lfocal???
另一個(gè)是點(diǎn)集回歸損失函數(shù):
Lreg?=1∣Vof∣∑VofLsmooth-?L1(ψ~,ψ)+β∣Vhide?f∑Vhide?fLsmooth-L1?(ψ~,ψ)\begin{aligned} L_{\text {reg }} &=\frac{1}{\left|V_{o}^{f}\right|} \sum_{V_{o}^{f}} L_{\text {smooth- } L 1}(\tilde{\psi}, \psi) +\frac{\beta}{\mid V_{\text {hide }}^{f}} \sum_{V_{\text {hide }}^{f}} L_{\text {smooth-L1 }}(\tilde{\psi}, \psi) \end{aligned} Lreg???=∣∣∣?Vof?∣∣∣?1?Vof?∑?Lsmooth-?L1?(ψ~?,ψ)+∣Vhide?f?β?Vhide?f?∑?Lsmooth-L1??(ψ~?,ψ)?
3. Experiments
首先是在Waymo數(shù)據(jù)集上的檢測(cè)結(jié)果:
然后是在KITTI數(shù)據(jù)集上的檢測(cè)結(jié)果。
總結(jié)
以上是生活随笔為你收集整理的详解3D物体检测模型 SPG: Unsupervised Domain Adaptation for 3D Object Detection via Semantic Point Generation的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 被非法集资骗了钱能要回来吗?非法集资最常
- 下一篇: 信用卡可以贷款买车吗 别被不良征信给害了