T-LESS:制作RGBD 6D姿态数据集和标签
T-LESS: An RGB-D Dataset for 6D Pose Estimation of Texture-less Objects
該數(shù)據(jù)集網(wǎng)址已公開:http://cmp.felk.cvut.cz/t-less/
摘要:該數(shù)據(jù)集采集的目標(biāo)為工業(yè)應(yīng)用、紋理很少的目標(biāo),同時(shí)缺乏區(qū)別性的顏色,且目標(biāo)具有對稱性和互相關(guān)性,數(shù)據(jù)集由三個(gè)同步的傳感器獲得,一個(gè)結(jié)構(gòu)光傳感器,一個(gè)RGBD sensor,一個(gè)高分辨率RGBsensor,從每個(gè)傳感器分別獲得了3.9w訓(xùn)練集和1w測試集,此外為每個(gè)目標(biāo)創(chuàng)建了2個(gè)3D model,一個(gè)是CAD手工制作的另一個(gè)是半自動(dòng)重建的。訓(xùn)練集圖片的背景大多是黑色的,而測試集的圖片背景很多變,會(huì)包含不同光照、遮擋等等變換(之所以這么做作者說是為了使任務(wù)更具有挑戰(zhàn)性)。
Intoduction:
無紋理的剛性物體在人類環(huán)境中很常見,檢測和精確定位它們來自圖像出現(xiàn)在各種應(yīng)用中。剛性物體的姿態(tài)具有六個(gè)自由度,即三個(gè)
旋轉(zhuǎn)和三個(gè)平移,以機(jī)器人技術(shù)為例,6D對象姿勢有助于空間推理并允許最終執(zhí)行者對一個(gè)物體采取行動(dòng)。
紋理的缺乏導(dǎo)致物體的檢測無法依賴傳統(tǒng)的光學(xué)局部信息和描述子(即局部顏色特征信息),但是近年來缺乏紋理的目標(biāo)可以依賴于3D特征,可以依賴梯度信息和深度信息。
本實(shí)驗(yàn)采用的設(shè)備:
1.結(jié)構(gòu)光RGBD sensor:Primesense Carmine 1.09
2.RGBD sensor:Microsoft Kinect v2
3.RGB camera:Canon IXUS
這些傳感器都是時(shí)間同步的,且具有相同的視角(怎樣做到具有相同的視角)。
接下來作者介紹了一些其他的數(shù)據(jù)集,令人印象深刻的有:1.A new benchmark for pose estimation with
ground truth from virtual reality(使用合成的方式創(chuàng)建數(shù)據(jù)集)
同時(shí)作者解釋了本數(shù)據(jù)集的優(yōu)勢在于:1.大量跟工業(yè)相關(guān)的目標(biāo);2.訓(xùn)練集都是在可控的環(huán)境下抓取的;3.測試集有大量變換的視角;4.圖片是由同步和校準(zhǔn)的sensor抓取的;5.準(zhǔn)確的6D pose標(biāo)簽;6.每個(gè)目標(biāo)有兩種3D模型;
作者制作數(shù)據(jù)的過程:
1.數(shù)據(jù)由上圖的裝置獲取,有一個(gè)轉(zhuǎn)盤,待檢測物體房子啊轉(zhuǎn)盤上,夾具上安裝著sensor,角度是可以調(diào)節(jié)的,標(biāo)記塊用于標(biāo)記相機(jī)姿態(tài)(外參),標(biāo)記塊固定在轉(zhuǎn)盤上,標(biāo)記塊垂直地延展到了轉(zhuǎn)盤外面,是為了提升在較低的立體面的姿態(tài)預(yù)測。為了獲取訓(xùn)練數(shù)據(jù),object被放在轉(zhuǎn)盤的中央,后面是一個(gè)黑色的背景,這是為了保證在所有的立體面都是黑色的背景。在測試集的獲取上,我們將物體放在標(biāo)記塊上,或者在物體下面放上本或者其他東西來制造背景。object表面的深度在0.53m-0.92m,Carmine RGBD相機(jī)的井深在0.35-1.4m,Kinect的在0.5~4.5m。
2.傳感器的標(biāo)定
相機(jī)的內(nèi)參和畸變系數(shù)是由標(biāo)準(zhǔn)棋盤格和opencv軟件完成的。所有傳感器都是同步的,且外在與轉(zhuǎn)盤進(jìn)行了校準(zhǔn)。傳感器必須同步,因?yàn)閳D片是在轉(zhuǎn)盤轉(zhuǎn)動(dòng)的時(shí)候采集的。外參的獲取是通過BCH碼的Markers,圖像采集檢測可以獲取它們的2D坐標(biāo),同時(shí)又已知它們的2D坐標(biāo),就可以得到一系列2D~3D點(diǎn)對,然后通過PnP算法求解相機(jī)姿態(tài),然后通過非線性優(yōu)化最小化累計(jì)誤差,關(guān)于像素點(diǎn)在圖片當(dāng)中的最小均方誤差,1.27 px for Carmine, 1.37 px for Kinect, and 1.50 px for Canon。因?yàn)檎w誤差不止有內(nèi)參矯正誤差,還有角點(diǎn)檢測誤差,還有傳感器姿態(tài)估計(jì)偏差,所以整體的偏差比上述的要大。
3.訓(xùn)練集和測試集
對于紋理較少的目標(biāo),通常的檢測方案是采用模板匹配,對每一個(gè)目標(biāo)從不同角度采集圖片,造模板的話,從85度到-85度,每個(gè)10度取一個(gè)角度,然后偏正角每隔5度取一個(gè)角度,這樣每個(gè)目標(biāo)就可以造1872個(gè)訓(xùn)練集,但由于物體是對稱的,只取上半視野即可得到所有情況的樣本,取85度到5度即可。測試集的話取75度到5度、偏正角仍然5度一取,所以每個(gè)目標(biāo)一共有772=502張圖片。為了移除圖片中不相關(guān)的部分,我們需要對圖片進(jìn)行裁剪,為了讓背景否都變成黑色,我們通過CAD模型在相機(jī)內(nèi)外參下的映射獲取背景Mask,把Mask涂黑,去除Marker的影響。
4.深度修正(Depth Correction)
RGBD獲取的深度信息也是有偏差的,深度修正主要是通過Marker,首先取出0.53 –0.92 m 的點(diǎn)(這是object出現(xiàn)的位置),根據(jù)Marker PnP獲取深度采用多項(xiàng)式公式對其進(jìn)行修正,修正后sensor的深度信息誤差大大減小,Carmine從12.4 mm to 2.8 mm,Kinect從7.0 mm to 3.6 mm。
5.3D模型
對于每一個(gè)目標(biāo),我們要?jiǎng)?chuàng)建一個(gè)手工的CAD模型和一個(gè)半自動(dòng)重建的模型。模型都是以3D網(wǎng)格以及頂點(diǎn)法線的格式提供。表面顏色信息只在重建模型中存在,兩個(gè)模型都有用MeshLab針對每個(gè)頂點(diǎn)計(jì)算法線。
重建模型由fastfusion創(chuàng)建(是一個(gè)Steinbrucker提供的3D映射系統(tǒng))。fastfusion的輸入是從Carmine獲得RGBD圖像以及通過Marker獲得的相機(jī)姿態(tài),對于每一個(gè)目標(biāo),兩個(gè)局部的模型先進(jìn)行重建,一個(gè)是“上半球”的視野,一個(gè)是“下半球"的視野,這兩個(gè)局部模型用ICP算法對頂點(diǎn)進(jìn)行對齊。之后是人工肉眼精修,看表面的顏色細(xì)節(jié)是否正確。最后的精修是依賴于相機(jī)的姿態(tài),將其映射到基準(zhǔn)幀,更新姿態(tài),從所有圖片中去重建模型原貌。當(dāng)然,模型當(dāng)中會(huì)包含一些小錯(cuò)誤需要人工剔除,比如金屬、光滑、透明的表面的深度信息往往是不正確的,需要剔除。重建模型通過ICP算法校準(zhǔn)到CAD模型,精修過程是手工的。通過ICP算法來評估這兩種模型,平均距離差為1.01mm,對于大小幾十甚至幾百毫米的物體來說,這個(gè)差距很小,但是還是有區(qū)別的,CAD模型包含一些內(nèi)面的部分。
6.Ground Truth Poses
為了給測試圖獲取6D姿態(tài)標(biāo)簽,要建立密集的場景的3D模型,這有504張RGBD圖和Marker標(biāo)記出的姿態(tài)完成。用目標(biāo)的CAD模型手工對準(zhǔn)場景模型,為了提高準(zhǔn)確性,將目標(biāo)模型渲染到高分辨率的場景模型,并且手工調(diào)整誤對準(zhǔn)的地方直到滿意為止。最終的轉(zhuǎn)換姿勢就是標(biāo)簽姿態(tài)。
下面來驗(yàn)證6D標(biāo)簽的準(zhǔn)確性:
把通過Marker獲取姿態(tài)的渲染深度和sensor獲取的深度進(jìn)行相減,如果超過5cm就認(rèn)為是outlier,是外點(diǎn)的原因主要有以下兩點(diǎn):1.sensor獲取的深度信息不準(zhǔn)2.目標(biāo)有部分被遮擋;
Carmine抓取的深度信息比較準(zhǔn)確,與渲染的深度差值近乎于0,對于Kinect,我們發(fā)現(xiàn)RGB圖和深度圖有些輕微的失調(diào)。
接下來是實(shí)驗(yàn)部分:
我們在Hodan提出的6d定位方案上進(jìn)行試驗(yàn),其輸入是圖片以及目標(biāo)在圖片中的位置,目的是獲取目標(biāo)的6D姿態(tài)。我們拿Carmine獲取的RGBD圖進(jìn)行實(shí)驗(yàn),CAD模型可以用于之前提到的Pose精修,loss如下(通過預(yù)測姿態(tài)和標(biāo)簽姿態(tài)造成的平均實(shí)際距離差):
當(dāng)e<=k*d的時(shí)候視為預(yù)測正確,k=0.1,d是所有模型法線對的最大距離(也就是目標(biāo)直徑),目標(biāo)至少有10%的可見度才考慮此評估。從下圖可以看出,遮擋是對結(jié)果準(zhǔn)確度影響最大最嚴(yán)重的。
5.0總結(jié)
本文提供了數(shù)據(jù)集 T-LESS,針對工業(yè)相關(guān)無紋理對稱目標(biāo)。且提供了多樣的傳感器信息和精準(zhǔn)的ground_truth,運(yùn)用數(shù)據(jù)集進(jìn)行初步的結(jié)果評估發(fā)現(xiàn)6D姿態(tài)檢測還有很大的進(jìn)步空間。
個(gè)人總結(jié)
拋開各種修正算法,就是用Marker獲取的姿態(tài)作為ground truth,然后處理圖像,將網(wǎng)絡(luò)輸入的圖像中的Marker涂成黑色。
總結(jié)
以上是生活随笔為你收集整理的T-LESS:制作RGBD 6D姿态数据集和标签的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 12.05计算机导论课后总结
- 下一篇: 超级课程表导入课程显示服务器繁忙,超级课