前沿丨基于深度学习的点云分割网络及点云分割数据集
眾所周知,點云的有效分割是許多應(yīng)用的前提,例如在三維重建領(lǐng)域,需要對場景內(nèi)的物體首先進行分類處理,然后才能進行后期的識別和重建。傳統(tǒng)的點云分割主要依賴聚類算法和基于隨機采樣一致性的分割算法,在很多技術(shù)上得到了廣泛應(yīng)用,但當點云規(guī)模不斷增大時,傳統(tǒng)的分割算法已經(jīng)很難滿足實際需要,這時就需要結(jié)合深度學(xué)習(xí)進行分割。因此,本文將重點介紹5種前沿的點云分割網(wǎng)絡(luò),包括PointNet/PointNet++、PCT、Cylinder以及JSNet網(wǎng)絡(luò),最后介紹5中常用的點云分割數(shù)據(jù)集。
作者丨泡椒味的泡泡糖
“點云分割是根據(jù)空間、幾何和紋理等特征對點云進行劃分,使得同一劃分內(nèi)的點云擁有相似的特征。”
01
PointNet/PointNet++
說起點云分割網(wǎng)絡(luò),就不得不介紹PointNet,它來源于CVPR的論文“Deep Learning on Point Sets for 3D Classification and Segmentation”。PointNet是首個輸入3D點云輸出分割結(jié)果的深度學(xué)習(xí)網(wǎng)絡(luò),屬于開山之作,成為了后續(xù)很多工作的BaseLine,網(wǎng)絡(luò)的總體結(jié)構(gòu)如圖1所示。
圖1 PointNet網(wǎng)絡(luò)
整體的PointNet網(wǎng)絡(luò)中,除了點云的感知以外,還有T-Net,即3D空間變換矩陣預(yù)測網(wǎng)絡(luò),這主要是由于點云分類的旋轉(zhuǎn)不變性,當一個N×D在N的維度上隨意的打亂之后,其表述的其實是同一個物體,因此針對點云的置換不變性,其設(shè)計的網(wǎng)絡(luò)必須是一個對稱的函數(shù)。
在PointNet網(wǎng)絡(luò)中,對于每一個N×3的點云輸入,網(wǎng)絡(luò)先通過一個T-Net將其在空間上對齊(旋轉(zhuǎn)到正面),再通過MLP將其映射到64維的空間上,再進行對齊,最后映射到1024維的空間上。這時對于每一個點,都有一個1024維的向量表征,而這樣的向量表征對于一個3維的點云明顯是冗余的,因此這個時候引入最大池化操作,將1024維所有通道上都只保留最大的那一個,這樣得到的1×1024的向量就是N個點云的全局特征。
PointNet網(wǎng)絡(luò)在ShapeNet數(shù)據(jù)集上的實驗效果如表1所示,可以看出,大多數(shù)分割都取得了SOAT效果。部分分割結(jié)果如圖2所示,可以看出分割結(jié)果相當平穩(wěn),并且具有很強的魯棒性。
表1 PointNet在ShapeNet上的分割效果對比
圖2 PointNet部分分割結(jié)果
PointNet++主要是為了克服PointNet自身的一些缺點,其中最大的缺點就是缺失局部特征。由于PointNet直接暴力地將所有的點最大池化為一個全局特征,因此局部點與點之間的聯(lián)系并沒有被網(wǎng)絡(luò)學(xué)習(xí)到。在分類和物體的Part Segmentation中,這樣的問題還可以通過中心化物體的坐標軸部分地解決,但在場景分割中,這就會導(dǎo)致效果變差。
為了克服PointNet的缺點,作者在PointNet++中主要借鑒了CNN的多層感受野的思想。CNN通過分層不斷地使用卷積核掃描圖像上的像素并做內(nèi)積,使得越到后面的特征圖感受野越大,同時每個像素包含的信息也越多。而PointNet++就是仿照了這樣的結(jié)構(gòu),先通過在整個點云的局部采樣并劃一個范圍,將里面的點作為局部的特征,用PointNet進行一次特征的提取。因此,通過了多次這樣的操作以后,原本的點的個數(shù)變得越來越少,而每個點都是有上一層更多的點通過PointNet提取出來的局部特征,也就是每個點包含的信息變多了。
PointNet++的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,同時作者對比了PointNet和PointNet++的分割效果如圖4所示,可見PointNet++的效果全面優(yōu)于PointNet。
圖3 PointNet++網(wǎng)絡(luò)結(jié)構(gòu)
圖4 PointNet++分割結(jié)果
02
PCT網(wǎng)絡(luò)
近年來,NLP領(lǐng)域的Transformer大火,同時也有大量學(xué)者將其從NLP領(lǐng)域遷移到圖像和點云領(lǐng)域。清華大學(xué)將Transformer應(yīng)用于3D點云分割技術(shù),設(shè)計了全新的PCT(Point Cloud Transformer)網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 PCT網(wǎng)絡(luò)結(jié)構(gòu)
PCT應(yīng)用Transformer進行點云分割的具體原理如圖6所示,其中星號代表Transformer的查詢向量,黃色到藍色代表注意力權(quán)重逐漸增加,最后一列代表分割結(jié)果。
圖6 PCT點云分割原理
為了更好地捕獲點云中的local context,作者在最遠點采樣和最近鄰居搜索的支持下增強了輸入嵌入,同時Transformer在點云分割領(lǐng)域的成功,也逐漸打通了NLP、圖像、點云等不同領(lǐng)域的壁壘,對于“模型大一統(tǒng)”具有重要意義。PCT點云分割與其他分割算法的對比如圖7所示,大量的實驗表明,PCT在形狀分類,part分割和法向量估算任務(wù)方面達到了最先進的性能。
圖6 PCT點云分割效果與其他算法對比
03
Cylinder網(wǎng)絡(luò)
Cylinder網(wǎng)絡(luò)來源于CVPR論文“Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR Segmentation”,Cylinder網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。Cylinder網(wǎng)絡(luò)由圓柱坐標體素劃分和非對稱3D卷積網(wǎng)絡(luò)組成,作者認為圓柱分割可以有效提高分割精度,此外作者還引入了一個point-wise模塊來改進體素塊輸出,提高辨識精度。
圖7 Cylinder網(wǎng)絡(luò)結(jié)構(gòu)
作者認為基于柱坐標的voxel的劃分,可以與激光雷達掃描過程保持一致。進而有效地減少空voxel的比率。此外,作者將Cylinder網(wǎng)絡(luò)在兩個大型室外場景數(shù)據(jù)集(SemanticKITTI和nuScenes)上進行了評估,評估效果對比如表2和表3所示。評估顯示,在SemanticKITTI數(shù)據(jù)集上,Cylinder網(wǎng)絡(luò)排名第一。在nuScenes數(shù)據(jù)集上,新方法的表現(xiàn)也大大超過了之前的方法。
表2 Cylinder網(wǎng)絡(luò)在SemanticKITTI數(shù)據(jù)集上的對比效果
表3 Cylinder網(wǎng)絡(luò)在nuScenes數(shù)據(jù)集上的對比效果
04
JSNet網(wǎng)絡(luò)
JSNet來源于AAAI論文“JSNet: Joint Instance and Semantic Segmentation of 3D Point Clouds”,JSNet可以同時解決3D點云的實例和語義分割問題,其網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示。
圖8?JSNet網(wǎng)絡(luò)結(jié)構(gòu)
JSNet首先建立有效的骨干網(wǎng)絡(luò),以從原始點云數(shù)據(jù)中提取魯棒的特征。其次為了獲得更多的判別特征,提出了一種點云特征融合模塊來融合骨干網(wǎng)的不同層特征。此外,JSNet開發(fā)了聯(lián)合實例語義分割模塊以將語義特征轉(zhuǎn)換為實例嵌入空間,然后將轉(zhuǎn)換后的特征進一步與實例特征融合以促進實例分割。同時,該模塊還將實例特征聚合到語義特征空間中,以促進語義分割。最后,JSNet通過對實例嵌入應(yīng)用簡單的均值漂移聚類來生成實例預(yù)測。
如表4和表5所示是JSNet網(wǎng)絡(luò)在大型3D室內(nèi)點云數(shù)據(jù)集S3DIS上的評估結(jié)果,圖9是JSNet網(wǎng)絡(luò)的分割效果。實驗結(jié)果表明,JSNet網(wǎng)絡(luò)在3D實例分割中的性能優(yōu)于最新方法,在3D語義預(yù)測方面有重大改進,同時有利于零件分割。
表4 JSNet網(wǎng)絡(luò)在S3DIS數(shù)據(jù)集上的實例分割結(jié)果
表5 JSNet網(wǎng)絡(luò)在S3DIS數(shù)據(jù)集上的語義分割結(jié)果
圖9 JSNet網(wǎng)絡(luò)的分割效果
05
點云分割數(shù)據(jù)集
深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練往往需要大量的數(shù)據(jù)集,同時深度神經(jīng)網(wǎng)絡(luò)性能的優(yōu)劣也往往是在公開數(shù)據(jù)集上進行評估,因此選擇合適的數(shù)據(jù)集至關(guān)重要。常用的點云分割數(shù)據(jù)集主要有如下幾個:
5.1 Semantic3D
經(jīng)典的大型室外場景點云分割數(shù)據(jù)集,由激光雷達掃描周圍場景得到。Semantic3D提供了一個帶有大標簽的自然場景的3D點云數(shù)據(jù)集,總計超過40億個點,8個類別標簽。
數(shù)據(jù)集包含了各種城市和鄉(xiāng)村場景,如農(nóng)場,市政廳,運動場,城堡和廣場。該數(shù)據(jù)集包含15個訓(xùn)練數(shù)據(jù)集和15個測試數(shù)據(jù)集,另外還包括4個縮減了的測試數(shù)據(jù)集。數(shù)據(jù)集中的點都含有RGB和深度信息,并被標記為8個語義類別,分別是1:人造地形;2:自然地形;3:高植被;4:低植被;5:建筑物;6:硬景觀;7:掃描人工制品,8:汽車,附加標簽0:未標記點,標記沒有地面真值的點。
數(shù)據(jù)集地址:http://www.semantic3d.net/
?
5.2 S3DIS
S3DIS數(shù)據(jù)集是斯坦福大學(xué)開發(fā)的帶有像素級語義標注的語義數(shù)據(jù)集,是常用的室內(nèi)場景分割數(shù)據(jù)集,使用Matterport相機收集數(shù)據(jù),包含6個Area,13個語義元素,11種場景。
其中13個語義元素分別包括:天花板ceiling、地板floor、墻壁wall、梁beam、柱column、窗window、門door、桌子table、椅子chair、沙發(fā)sofa、書柜bookcase、板board、混雜元素(其他)clutter;11種場景分別包括辦公室office、會議室conference room、走廊hallway、禮堂auditorium、開放空間open space、大堂lobby、休息室lounge、儲藏室pantry、復(fù)印室copy room、儲藏室storage和衛(wèi)生間WC。
數(shù)據(jù)集地址:http://buildingparser.stanford.edu/dataset.html
?
5.3 SemanticKITTI
SemanticKITTI數(shù)據(jù)集是一個基于KITTI Vision Benchmark里程計數(shù)據(jù)集的大型戶外點云數(shù)據(jù)集,顯示了市中心的交通、住宅區(qū),以及德國卡爾斯魯厄周圍的高速公路場景和鄉(xiāng)村道路。原始里程計數(shù)據(jù)集由22個序列組成,作者將序列00到10拆分為訓(xùn)練集,將11到21拆分為測試集,并且為了與原始基準保持一致,作者對訓(xùn)練和測試集采用相同的劃分,采用和KITTI數(shù)據(jù)集相同的標定方法,這使得該數(shù)據(jù)集和KITTI數(shù)據(jù)集等數(shù)據(jù)集可以通用。
SemanticKITTI數(shù)據(jù)集作者提供了精確的序列掃描注釋,并且在點注釋中顯示了前所未有的細節(jié),包含28個類,確保了類與Mapillary Visiotas數(shù)據(jù)集和Cityscapes數(shù)據(jù)集有很大的重疊,并在必要時進行了修改,以考慮稀疏性和垂直視野。
數(shù)據(jù)集地址:http://www.semantic-kitti.org/index.html
5.4 ShapeNet
ShapeNet數(shù)據(jù)集是一個由對象的三維CAD模型表示的形狀存儲庫,注釋豐富,規(guī)模較大。ShapeNet包含來自多種語義類別的3D模型,并按照WordNet分類法組織,能夠完成部件分割任務(wù),即不僅知道這個點云數(shù)據(jù)大的分割,還要將它的小部件進行分割。它總共包括十六個大的類別,每個大的類別有可以分成若干個小類別,十六個類別具體包括:飛機Airplane、包Bag、帽子Cap、汽車Car、椅子Chair、耳機Earphone、吉他Guitar、刀Knife、燈Lamp、電腦Laptop、摩托車Motorbike、杯子Mug、手槍Pistol、火箭Rocket、滑板Skateboard、桌子Table。
數(shù)據(jù)集地址:https://www.shapenet.org/
?
5.5 PartNet
PartNet數(shù)據(jù)集是用于細粒度和分層零件級3D對象理解的大規(guī)?;鶞?。數(shù)據(jù)集包含573585個零件實例,涵蓋26671個3D模型,涵蓋24個對象類別。PartNet數(shù)據(jù)集啟用并充當許多任務(wù)的催化劑,例如形狀分析,動態(tài)3D場景建模和仿真,可負擔(dān)性分析等。數(shù)據(jù)集建立了用于評估3D零件識別的三個基準測試任務(wù):細粒度語義分割,分層語義分割和實例分割。
數(shù)據(jù)集地址:https://shapenet.org/download/parts
06
結(jié)論
近年來,隨著自動駕駛和三維重建技術(shù)的不斷發(fā)展,需要處理的點云規(guī)模越來越龐大,傳統(tǒng)的聚類算法和基于隨機采樣一致性的分割算法較難滿足實時性和精度要求。而基于深度學(xué)習(xí)的點云分割網(wǎng)絡(luò)較好地解決了上述問題,本文重點介紹了幾種前沿的點云分割網(wǎng)絡(luò),包括PointNet/PointNet++、PCT、Cylinder以及JSNet網(wǎng)絡(luò),并介紹了5種常用的點云分割數(shù)據(jù)集。讀者在應(yīng)用深度學(xué)習(xí)進行點云分割或設(shè)計點云分割網(wǎng)絡(luò)時,要根據(jù)自身需求和實際工況,有針對地選擇合適的點云分割網(wǎng)絡(luò)和數(shù)據(jù)集。
本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。
干貨下載與學(xué)習(xí)
后臺回復(fù):巴塞羅那自治大學(xué)課件,即可下載國外大學(xué)沉淀數(shù)年3D Vison精品課件
后臺回復(fù):計算機視覺書籍,即可下載3D視覺領(lǐng)域經(jīng)典書籍pdf
后臺回復(fù):3D視覺課程,即可學(xué)習(xí)3D視覺領(lǐng)域精品課程
計算機視覺工坊精品課程官網(wǎng):3dcver.com
1.面向自動駕駛領(lǐng)域的多傳感器數(shù)據(jù)融合技術(shù)
2.面向自動駕駛領(lǐng)域的3D點云目標檢測全棧學(xué)習(xí)路線!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)
3.徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進
4.國內(nèi)首個面向工業(yè)級實戰(zhàn)的點云處理課程
5.激光-視覺-IMU-GPS融合SLAM算法梳理和代碼講解
6.徹底搞懂視覺-慣性SLAM:基于VINS-Fusion正式開課啦
7.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化
8.徹底剖析室內(nèi)、室外激光SLAM關(guān)鍵算法原理、代碼和實戰(zhàn)(cartographer+LOAM +LIO-SAM)
9.從零搭建一套結(jié)構(gòu)光3D重建系統(tǒng)[理論+源碼+實踐]
10.單目深度估計方法:算法梳理與代碼實現(xiàn)
11.自動駕駛中的深度學(xué)習(xí)模型部署實戰(zhàn)
12.相機模型與標定(單目+雙目+魚眼)
13.重磅!四旋翼飛行器:算法與實戰(zhàn)
14.ROS2從入門到精通:理論與實戰(zhàn)
15.國內(nèi)首個3D缺陷檢測教程:理論、源碼與實戰(zhàn)
重磅!計算機視覺工坊-學(xué)習(xí)交流群已成立
掃碼添加小助手微信,可申請加入3D視覺工坊-學(xué)術(shù)論文寫作與投稿?微信交流群,旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。
同時也可申請加入我們的細分方向交流群,目前主要有ORB-SLAM系列源碼學(xué)習(xí)、3D視覺、CV&深度學(xué)習(xí)、SLAM、三維重建、點云后處理、自動駕駛、CV入門、三維測量、VR/AR、3D人臉識別、醫(yī)療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產(chǎn)品落地、視覺競賽、車牌識別、硬件選型、深度估計、學(xué)術(shù)交流、求職交流等微信群,請掃描下面微信號加群,備注:”研究方向+學(xué)校/公司+昵稱“,例如:”3D視覺?+ 上海交大 + 靜靜“。請按照格式備注,否則不予通過。添加成功后會根據(jù)研究方向邀請進去相關(guān)微信群。原創(chuàng)投稿也請聯(lián)系。
▲長按加微信群或投稿
▲長按關(guān)注公眾號
3D視覺從入門到精通知識星球:針對3D視覺領(lǐng)域的視頻課程(三維重建系列、三維點云系列、結(jié)構(gòu)光系列、手眼標定、相機標定、激光/視覺SLAM、自動駕駛等)、知識點匯總、入門進階學(xué)習(xí)路線、最新paper分享、疑問解答五個方面進行深耕,更有各類大廠的算法工程人員進行技術(shù)指導(dǎo)。與此同時,星球?qū)⒙?lián)合知名企業(yè)發(fā)布3D視覺相關(guān)算法開發(fā)崗位以及項目對接信息,打造成集技術(shù)與就業(yè)為一體的鐵桿粉絲聚集區(qū),近4000星球成員為創(chuàng)造更好的AI世界共同進步,知識星球入口:
學(xué)習(xí)3D視覺核心技術(shù),掃描查看介紹,3天內(nèi)無條件退款
?圈里有高質(zhì)量教程資料、答疑解惑、助你高效解決問題
覺得有用,麻煩給個贊和在看~??
總結(jié)
以上是生活随笔為你收集整理的前沿丨基于深度学习的点云分割网络及点云分割数据集的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 考研线性代数常见概念、问题总结
- 下一篇: 动手的乐趣_1969功率放大器