无需Grouping,中科大和微软亚研院提出Group-Free的三维物体检测方法,性能远超之前最好方法。...
?PaperWeekly 原創(chuàng) ·?作者|劉澤
學(xué)校|微軟亞洲研究院實(shí)習(xí)生
研究方向|計(jì)算機(jī)視覺(jué)與深度學(xué)習(xí)
無(wú)需 Grouping,中科大和微軟亞研院提出 Group-Free 的三維物體檢測(cè)方法,性能遠(yuǎn)超之前最好方法。
論文標(biāo)題:
Group-Free 3D Object Detection via Transformers
論文鏈接:
https://arxiv.org/pdf/2104.00678
代碼地址:
https://github.com/zeliu98/Group-Free-3D
?
近年來(lái),從三維點(diǎn)云中直接檢測(cè)三維物體得到了越來(lái)越多的關(guān)注。為了從不規(guī)則的點(diǎn)云中提取物體的特征,目前的方法通常都會(huì)借助點(diǎn)聚合操作(Point Grouping)為某個(gè)候選物體聚合對(duì)應(yīng)的點(diǎn),進(jìn)而可以從聚合的點(diǎn)中提取候選物體的特征。
人們提出了許多不同的聚合策略,Frustum-PointNet [1] 首先使用二維圖像生成二維候選框,再將二維候選框包含的三維空間中的點(diǎn)聚合在一起;Point R-CNN [2]?直接生成三維候選框,并將三維候選框中的點(diǎn)聚合在一起;VoteNet [3] 則通過(guò) Hough Voting 將 voting 到同一或空間相近的物體中心的點(diǎn)聚合在一起。
盡管這些人工設(shè)計(jì)的聚合策略在目前的三維物體檢測(cè)器中起到了至關(guān)重要的作用,但真實(shí)場(chǎng)景的復(fù)雜和多樣性往往會(huì)導(dǎo)致這些點(diǎn)聚合方法產(chǎn)生錯(cuò)誤(例如圖1),并損害檢測(cè)器的性能。
?
▲ [圖1] 在人工設(shè)計(jì)的點(diǎn)聚合方法中,RoI-Pooling 的藍(lán)色框和 Voting 的藍(lán)色球中的所有點(diǎn)都被聚合到同一候選物體,從而產(chǎn)生了錯(cuò)誤。本文的無(wú)需聚合(Group-Free)方法可以自動(dòng)學(xué)習(xí)每個(gè)點(diǎn)對(duì)每個(gè)物體的貢獻(xiàn),從而可以緩解手工設(shè)計(jì)的聚合方法的弊端。
?
本文提出了一種簡(jiǎn)單而有效的方法從點(diǎn)云中直接檢測(cè)三維物體,而不需要借助手工設(shè)計(jì)的點(diǎn)聚合策略。我們方法的核心在于使用 Transformer [4] 中的注意力機(jī)制來(lái)利用點(diǎn)云中的所有點(diǎn)來(lái)計(jì)算物體特征,每個(gè)點(diǎn)對(duì)物體的貢獻(xiàn)通過(guò)網(wǎng)絡(luò)訓(xùn)練而自動(dòng)學(xué)習(xí)獲得。
為了進(jìn)一步發(fā)揮 Transformer 架構(gòu)的優(yōu)勢(shì),本文還提出了迭代式邊界框預(yù)測(cè)(Iterative Box Prediction)與多階段預(yù)測(cè)整合(Ensemble Multi-stage Predictions),進(jìn)一步提升了物體檢測(cè)的準(zhǔn)確度。
我們提出的方法在兩個(gè)被廣泛使用的三維物體檢測(cè)基準(zhǔn)測(cè)試 ScanNet V2 和 SUN RGB-D 中都取得了目前最好的表現(xiàn)。其中,SUN RGB-D 取得了?62.8 mAP@0.25 和 42.3 mAP@0.5,ScanNet V2 則取得了 69.1mAP@0.25 和 52.8 mAP@0.5,遠(yuǎn)超之前的方法。
?
方法介紹
在基于點(diǎn)云的三維物體檢測(cè)中,檢測(cè)器的輸入是個(gè)點(diǎn)的集合 ,目標(biāo)是檢測(cè)出點(diǎn)云中三維物體的邊界框以及物體類別。
本文的整體架構(gòu)如圖 2 所示,它主要由三部分構(gòu)成:一個(gè)主干網(wǎng)絡(luò)(backbone network),用來(lái)提取點(diǎn)云中每個(gè)點(diǎn)的特征;一個(gè)初始候選物體采樣模塊(initial object candidates sampling module);一組堆疊的注意力模塊(stacked attention modules),用于從所有點(diǎn)中迭代提取并改進(jìn)候選物體的特征。
?
▲ [圖2] 整體架構(gòu)示意
?
1.1 骨干網(wǎng)絡(luò)(Backbone Network)
為了與其他方法做公平的比較,本文選取了 PointNet++ [5] 作為主干網(wǎng)絡(luò),并采用了一個(gè)編碼-解碼器的結(jié)構(gòu)。它以 N 個(gè)點(diǎn)作為輸入,首先通過(guò) 4 階段的集合抽象層(set abstraction layer)逐漸降采樣 8 倍(例如得到 256 個(gè)點(diǎn)),再通過(guò)特征傳播層(feature propagation layer)上采樣 2 倍(例如得到 1024 個(gè)點(diǎn))。
通過(guò)骨干網(wǎng)絡(luò)最終產(chǎn)生 2 倍降采樣的每個(gè)點(diǎn)的維特征,這些特征會(huì)進(jìn)一步被初始候選物體采樣模塊與堆疊的注意力模塊所使用。
1.2 初始候選物體采樣(Initial Object Candidate Sampling)
本文通過(guò)自底向上的方式從點(diǎn)云中直接采樣初始的候選物體,并提供了一種簡(jiǎn)單高效的采樣方式:K 最近點(diǎn)采樣(k-Closest Points Sampling,KPS)。
在本方法中,每個(gè)點(diǎn)會(huì)去分類他們屬于某個(gè)物體的概率,并采樣分類概率較高的點(diǎn)。分類的標(biāo)簽由點(diǎn)離真值框中心的距離決定,每個(gè)真值框最近的 k 個(gè)點(diǎn)定義為正樣本,其余點(diǎn)為負(fù)樣本。
1.3 基于Transformer解碼器進(jìn)行迭代的物體特征提取和邊界框預(yù)測(cè)(Iterative Object Feature Extraction and Box Prediction by Transformer Decoder)
利用采樣得到的初始候選物體,本文采用 Transformer 作為解碼器,利用點(diǎn)云上的所有點(diǎn)來(lái)計(jì)算每個(gè)候選物體的特征。Transformer 由一系列堆疊的多頭自注意力(multi-head self-attention)模塊和多頭交叉注意力(multi-head cross-attention)模塊以及前饋網(wǎng)絡(luò)(feed-forward network,FFN)構(gòu)成,如圖 3 所示。
其中自注意力模塊在不同物體之間交互信息,而交叉注意力模塊則可以利用點(diǎn)特征更新物體特征,前饋網(wǎng)絡(luò)則進(jìn)一步變換每個(gè)物體的特征。
?
▲ [圖3] 注意力模塊示意
在原始的 Transformer 中,空間位置編碼(spatial encoding)是固定的。而在本文中,我們提出了一種迭代改進(jìn)式的空間位置編碼方法。
具體來(lái)說(shuō),本文在每個(gè)解碼器階段都會(huì)進(jìn)行邊界框的預(yù)測(cè),而上一階段的預(yù)測(cè)框可被用來(lái)產(chǎn)生當(dāng)前階段同一物體改進(jìn)后的位置編碼,同時(shí)該位置編碼還會(huì)與當(dāng)前階段解碼器的輸出特征結(jié)合,作為下一階段解碼器的輸入特征。
在實(shí)驗(yàn)中,我們發(fā)現(xiàn)這種迭代式的空間位置編碼方法可以在 ScanNet V2 中提升 1.6 mAP@0.25 和 5.0 mAP@0.5。
?
多階段的預(yù)測(cè)還帶了另外一個(gè)好處,即可以將不同階段的預(yù)測(cè)結(jié)果進(jìn)行整合。具體來(lái)說(shuō),不同階段的預(yù)測(cè)框?qū)⒈唤M合在一起進(jìn)行非極大值抑制(NMS)并得到最后的預(yù)測(cè)結(jié)果。本文發(fā)現(xiàn)在 SUN RGB-D 上,該方法可以提高 3.9 mAP@0.25。
實(shí)驗(yàn)分析
2.1 系統(tǒng)比較
表 1 展示了 ScanNet V2 上的系統(tǒng)比較結(jié)果。
▲ [表1] 在 ScanNet V2 上與目前最先進(jìn)方法的比較。4×PointNet++ 表示使用了 4 個(gè)獨(dú)立的PointNet++;PointNet++w2× 表示骨干網(wǎng)絡(luò)的寬度增大一倍;L 為解碼器深度,O 為候選物體個(gè)數(shù)。
可以看到,在使用標(biāo)準(zhǔn) PointNet++ 作為骨干網(wǎng)絡(luò)的情況下,本文的基礎(chǔ)模型(6 層解碼器以及 256 個(gè)候選物體)達(dá)到了 67.3 mAP@0.25 和 48.9 mAP@0.5,比之前使用同樣骨干網(wǎng)絡(luò)的最好的方法分別高 2.8 和 5.5。進(jìn)一步提高至 12 層解碼器,mAP@0.5 的差距進(jìn)一步拉大到 6.3。
在使用更強(qiáng)的骨干網(wǎng)絡(luò)(PointNet++w2×)以及更多候選物體(512 個(gè))的情況下,本文放大達(dá)到了69.1 mAP@0.25 和 52.8 mAP@0.5,遠(yuǎn)遠(yuǎn)超出之前最好方法。
?
表 2 展示了 SUN RGB-D 上的系統(tǒng)比較結(jié)果。
▲ [表2] 在 SUN RGB-D 上與目前最先進(jìn)方法的比較,其中 imVoteNet 使用了額外的 RGB 圖像數(shù)據(jù)。
在 SUN RGB-D 上,本文的基礎(chǔ)模型達(dá)到了 62.8 mAP@0.25 和 42.3 mAP@0.5,超過(guò)之前所有只用點(diǎn)云作為輸入的方法。
2.2 與點(diǎn)聚合方法的比較
RoI-Pooling 以及 Voting 是兩種被廣泛使用的點(diǎn)聚合方法,表 3 展示了本文方法與這兩種方法的比較。可以看到,RoI-Pooling 效果好于 Voting,但仍然落后本文方法 1.2 mAP@0.25 與 4.1 mAP@0.5,這證明了我們方法相較于基于點(diǎn)聚合方法的優(yōu)勢(shì)。
▲ [表3] 與基于點(diǎn)聚合的方法的比較
?
2.3 可視化結(jié)果
圖4展示了不同解碼器階段檢測(cè)結(jié)果的定性展示。可以看到隨著解碼器變深,檢測(cè)結(jié)果越來(lái)越精確。
▲ [圖4] 不同解碼器階段檢測(cè)結(jié)果的定性展示
圖 5 展示了不同解碼器階段學(xué)習(xí)到的交叉注意力權(quán)重,我們可以看到低階段往往集中在相鄰點(diǎn)上,而通過(guò)多次改進(jìn)模型將注意力更多集中在物體本身,從而可以提取更好的物體特征。
▲ [圖5] 不同解碼器階段交叉注意力權(quán)重的可視化。綠點(diǎn)表示參考點(diǎn),紅色表示權(quán)重較高區(qū)域。
?
參考文獻(xiàn)
[1] Charles R Qi, Wei Liu, Chenxia Wu, Hao Su, and Leonidas J Guibas. Frustum pointnets for 3d object detection from rgbd data. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 918–927, 2018.
[2] Shaoshuai Shi, Xiaogang Wang, and Hongsheng Li. Pointrcnn: 3d object proposal generation and detection from point cloud. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 770–779, 2019.
[3] Charles R Qi, Or Litany, Kaiming He, and Leonidas J Guibas. Deep hough voting for 3d object detection in point clouds. In Proceedings of the IEEE International Conference on Computer Vision, pages 9277–9286, 2019.
[4] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need, 2017.
[5] Charles Ruizhongtai Qi, Li Yi, Hao Su, and Leonidas J Guibas. Pointnet++: Deep hierarchical feature learning on point sets in a metric space. In NIPS, 2017.
?
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
?????來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的无需Grouping,中科大和微软亚研院提出Group-Free的三维物体检测方法,性能远超之前最好方法。...的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 平准基金是什么
- 下一篇: 储能行业龙头股票 每一个热点都离不开储能