rgb fusion检测不到显卡_【论文阅读27】Co-Fusion
主要內(nèi)容
- 物體級別的語義SLAM。維護(hù)一個背景模型和多物體模型,每個模型由面元地圖表示。
- 基于運動分割和語義信息檢測運動物體。
- 使用基于ICP對齊的幾何誤差和基于顏色差異的光度誤差跟蹤背景模型(相機位姿)和多個運動物體。
- 根據(jù)[8]的方法更新每個模型的面元地圖。
- 開源代碼地址:martinruenz/co-fusion。
M. Runz, L. Agapito. Co-fusion: Real-time segmentation, tracking and fusion of multiple objects. IEEE International Conference on Robotics and Automation, 2017.
摘要
本文中,我們介紹了Co-Fusion,一種稠密SLAM系統(tǒng),以RGB-D圖片流為輸入,并分割場景為不同物體(使用運動或語義線索)同時實時跟蹤和重建它們的3D形狀。我們使用一個多模型擬合方法,其中每個物體能夠獨立于背景進(jìn)行運動,并被有效地跟蹤,并且它的形狀使用與該物體標(biāo)號關(guān)聯(lián)的像素隨時間被融合。之前試圖解決動態(tài)場景的嘗試一般假設(shè)運動區(qū)域為外點,并且不建模它們的形狀或跟蹤它們隨時間的運動。相反地,我們讓機器人維護(hù)每個物體的3D模型,并通過隨時間的融合提高模型結(jié)果。因此,我們的系統(tǒng)能夠使機器人以物體級別描述場景,具有和環(huán)境交互的潛力;甚至在動態(tài)環(huán)境中。
1. 介紹
雖然SLAM取得很大進(jìn)步,但是大部分假設(shè)靜態(tài)環(huán)境或把動態(tài)物體當(dāng)做外點。但是,在機器人應(yīng)用中,大多數(shù)在前景中運動的物體是機器人感興趣的。如果我們想設(shè)計與動態(tài)環(huán)境交互的機器人,必須配置如下兩個功能:(i)發(fā)現(xiàn)場景中的物體(ii)跟蹤并估計物體的3D幾何。這種高層基于物體的場景表示將會極大增強機器人的感知和交互能力。
本文中我們提出了Co-Fusion,一種新的基于RGB-D的SLAM系統(tǒng),能夠分割場景為背景和不同的前景物體,使用運動或語義信息,同時跟蹤和重建它們的3D幾何。系統(tǒng)提供兩種可替換的分割策略——運動分割和物體實例分割。分割完成后,物體被添加到一組積極模型中,并被跟蹤和融合。每個物體的跟蹤和融合線程基于最近的基于面元的方法[8][30]。
本文主要貢獻(xiàn)如下:
- 允許機器人不僅重建周圍環(huán)境而且能夠獲得未知物體的詳細(xì)3D幾何信息。
- 系統(tǒng)能夠使得機器人發(fā)現(xiàn)場景中的新物體,并通過主動運動學(xué)習(xí)準(zhǔn)確的3D模型。
我們證實Co-Fusion在許多場景下——在桌子上放置之前未看到的不同物體并學(xué)習(xí)它們的幾何(圖1),手遞手傳遞物體(圖3),手持運動相機跟蹤一個運動物體(圖9)和一個駕駛場景(圖5a)。我們也定量證實了跟蹤和重建的魯棒性。
圖1. 一個序列,證實動態(tài)SLAM系統(tǒng)。三個物體被依次放置在桌子上:首先一個小籃子(藍(lán)色標(biāo)簽),一個瓶子(黃色)和一個泰迪熊(綠色)。結(jié)果展示了所有物體被成功地分割,跟蹤和建模。2. 相關(guān)工作
微軟Kinect設(shè)備和廉價深度相機的到來促進(jìn)了實時3D掃描的研究。例如KinectFusion[14]的系統(tǒng)首先使得實時準(zhǔn)確地建圖任意室內(nèi)場景幾何變得可能,通過融合深度相機獲得的圖片通過在環(huán)境中移動相機。準(zhǔn)確和稠密3D幾何的實時獲取開啟了快速掃描或AR/VR和移動機器人的應(yīng)用,之前通過離線或稀疏技術(shù)是不可能做到的。KinectFusion的后繼者快速解決了一些缺點。雖然這些主要關(guān)注處理大場景的擴展[7][29][15][31]或包括回環(huán)[30],增強跟蹤的魯棒性[31]或增加的內(nèi)存和尺度效率通過使用基于點而不是體素表示[8],得到增加的3D重建質(zhì)量[10]。獲得更高層次的語義場景理解通過使用一個稠密平面表示[21]或者實時3D物體識別[22]進(jìn)一步提高跟蹤表現(xiàn)同時打開了與場景的虛擬或真實交互。更近的方法例如[25][11]實時組合語義分割甚至識別到SLAM系統(tǒng)中。雖然他們展示了令人印象深刻的表現(xiàn),他們?nèi)匀幌拗圃陟o態(tài)場景。
許多傳統(tǒng)SLAM和稠密重建系統(tǒng)的核心潛在假設(shè)是場景大部分靜態(tài)。這些稠密系統(tǒng)如何被擴展到跟蹤和重建更多的模型而不妥協(xié)實時表現(xiàn)?SLAMMOT項目[28]向動態(tài)環(huán)境中的SLAM框架邁出了重要的一步通過組合運動物體的檢測和分割到SLAM操作中。它主要在駕駛場景中驗證并限制為稀疏重建。最近稠密動態(tài)環(huán)境的實時重建問題才被解決。大多數(shù)工作致力于實時捕捉非剛體幾何通過RGB-D相機。假設(shè)是相機觀測的單個物體隨著時間自由分解。DynamicFusion[13]是彈幕實時系統(tǒng)的一個主要例子,其融合來自深度傳感器的可分解物體的幀而不需要任何預(yù)訓(xùn)練模型或形狀模板。通過使用多個RGB-D傳感器,4DFusion[2]能夠捕捉實時可分解形狀以非常細(xì)節(jié)的層次,并能夠處理較大的分解和拓?fù)渥兓A硪环矫?#xff0c;基于模板的技術(shù)也能夠獲得高度真實的結(jié)果,但是它們限制在需要增加模板的獲取步驟[32]或者致力于跟蹤特定的物體通過使用手工設(shè)計的或預(yù)訓(xùn)練的模型[26]。這些包括一般的人工跟蹤方法,或者需要物體在某個位姿下的幾何模板[27],或者骨架結(jié)構(gòu)的先驗知識[23]。
相反地,捕捉動態(tài)場景的全幾何可能包含更多運動物體,但是仍然沒有收到很大關(guān)注。Ren等人[18]提出一種同時跟蹤和重建3D物體的方法通過精修一個初始簡單形狀實體。但是,與我們的方法相反,它只能跟蹤一個運動物體并需要一個手工初始化。[12]提出一個組合的方法用于估計人造物的位姿,形狀和運動學(xué)結(jié)構(gòu)基于運動分割。雖然它業(yè)績預(yù)聯(lián)合跟蹤和分割,關(guān)注點在于發(fā)現(xiàn)人造物,只有前景物體被重建,并且它的表現(xiàn)不是實時的。Stuckler和Behnke[24]提出了一個稠密剛體運動分割算法用于RGB-D序列。他們只分割RGB-D圖片并估計運動但是不同時重建物體。最終[3]構(gòu)建一個環(huán)境模型并使用變化檢測考慮場景中變得與模型不一致的新物體部分。但是,該方法需要一個人在環(huán)中來獲得一個已知的正確的分割并且不提供實時操作。
一些最近的純RGB方法也解決了動態(tài)場景的單目3D重建問題。例如[20][4][9]的工作類似我們的同時分割,跟蹤和重建方法。Russell等人[20]執(zhí)行多模型擬合來分解場景為逐片剛體部分,被組合以形成單個物體。他們方法的優(yōu)點是處理非剛體,剛體或人造物混合的靈活性。Fragkiadaki等人[4]跟隨一個流程方法,首先執(zhí)行長期跟蹤并聚類為不同物體,然后執(zhí)行非剛體重建。但是,這些方法都執(zhí)行稀疏跟蹤,并且都是批處理方法,需要提前知道所有幀。我們的方法也和[19]的稠密RGB多目標(biāo)重建方法有相似之處,其執(zhí)行同時分割,跟蹤和多剛體模型的3D重建,不同的是我們的方法是在線實時的,而他們的方法是批處理方法,每幀需要幾秒來執(zhí)行。
3. 方法綜述
圖2. 方法綜述Co-Fusion是一個在線RGB-D SLAM系統(tǒng),能夠?qū)崟r處理每個新幀。同時維護(hù)一個背景的細(xì)節(jié)幾何全局模型和每個物體的模型,并跟蹤每個物體的運動。每個模型存儲為一組點。我們的系統(tǒng)維護(hù)兩組物體模型:積極模型是當(dāng)前可見的物體,消極模型是曾經(jīng)可見的物體。
圖2展示了我們系統(tǒng)的逐幀操作。在一開始,場景被初始化單個積極模型——背景。一旦融合的背景3D模型和相機位姿穩(wěn)定后,對每個新幀,接下來的步驟被執(zhí)行:
跟蹤。首先,我們跟蹤每個積極模型在當(dāng)前幀的6DoF位姿。這通過對每個物體最小化一個基于稠密ICP對齊的幾何誤差和基于當(dāng)前幀中的點和存儲3D模型中的點之間的顏色差的光度代價的目標(biāo)函數(shù)。
分割。在該步驟,我們分割當(dāng)前幀的像素屬于某一個積極模型/物體。我們的系統(tǒng)基于運動和語義標(biāo)號進(jìn)行分割。
1)運動分割。我們將運動分割構(gòu)建為一個使用全連接條件隨機場的標(biāo)號問題,并使用[9]中的高效方法在CPU上實時優(yōu)化。標(biāo)號后是連通區(qū)域提取。如果連通區(qū)域大部分被外點占據(jù),則認(rèn)為該區(qū)域?qū)?yīng)一個物體,并建立一個新模型。
2)多類別圖片分割。使用[16]基于語義的方法分割圖片。
融合。使用新估計的6DOF位姿,每個積極模型的稠密3D幾何被更新通過融合屬于該模型的標(biāo)號點。我們使用基于面元的融合方法[8][30]。
注:論文[8]的詳細(xì)分析詳見
robot L:【論文閱讀25】Flat Point/Surfel-based Fusion?zhuanlan.zhihu.com4 記號和預(yù)備知識
使用
表示2D圖片域,由像素坐標(biāo) 組成,齊次形式為 。一幀RGB-D包含深度圖 和一個彩色圖 。灰度值記作 。3D點 到像素的投影表示為 ,其中反投影為
。本文將每個物體用一個面元地圖進(jìn)行表示。一個面元地圖記作
,其中每個面元 ,分別表示位置,法向量,顏色,權(quán)重,半徑和兩個時間戳(最舊和最新)。本文使用
表示 時刻的物體位姿集合。 將面元地圖 中的點變換到全局參考系中。特別地,我們使用 表示背景模型的位姿變換(即相機在全局參考系中的位姿)。5 跟蹤積極模型
A 能量
對于每個面元地圖
,最小化一個代價函數(shù),其包括基于點面ICP的幾何項和光度彩色項 (1)B 幾何項
對于每個面元地圖
,我們想最小化(i)當(dāng)前深度地圖的3D反投影和(ii)來自前一幀 的預(yù)測深度地圖之間的點面ICP配準(zhǔn)誤差: (2)其中
是當(dāng)前幀深度圖中的點, 和 是 時刻的預(yù)測深度點, 是對齊 和 時刻模型的變換。C 光度顏色項
(2)為了提高效率,采用四層金字塔策略。GPU應(yīng)用采用[30]的開源代碼。
6 運動分割
在跟蹤步驟結(jié)束后,我們有了跟蹤物體們的位姿的新估計
。接下來,我們需要將當(dāng)前
時刻的像素分類,屬于跟蹤的某個物體或者不屬于任何物體。假設(shè)跟蹤的物體個數(shù)有 個,現(xiàn)在我們需要尋找一個映射 ,分配一個標(biāo)號 給每個像素點 ,其中 是外點標(biāo)號(不屬于任何跟蹤物體)。為了在CPU上實時進(jìn)行運動分割,我們首先過分割當(dāng)前幀圖片為SLIC超像素使用[17]的快速應(yīng)用,并在這些超像素上使用標(biāo)號算法。超像素的位置,顏色和深度被估計通過平均內(nèi)部所有像素的結(jié)果。
然后遵循[9]的能量最小化方法,優(yōu)化超像素的標(biāo)號集合
: (4)其中
和 遍歷所有的超像素(超像素一共有 個)。后處理。首先融合所有相連的具有相似幾何變換的模型。其次抑制不相連的具有相同標(biāo)號的模型,除了該標(biāo)號模型的最大的連通塊之外。
7 物體實例分割
使用物體實力分割[16]中排名靠前的SOTA方法來分割感興趣物體。
8 融合
使用類似[8]的方法融合并更新面元模型。
9 評估
我們執(zhí)行一個定量的評估同時在具有真值數(shù)據(jù)的仿真和真實序列中。合適的具有Kinect類似噪聲的仿真序列[6]被特別地創(chuàng)建為該工作(ToyCar3和Room4)并且已經(jīng)公開可用了,伴隨著評測工具。為了得到真是數(shù)據(jù)的真值,我們在一組物體上貼上了標(biāo)簽如圖10所示,并且使用NextEngine 3D掃描儀準(zhǔn)確地重建它們。該場景被記錄使用一個運動捕捉系統(tǒng)(OptoTrack)以獲得軌跡的真值數(shù)據(jù)。一個Asus Xtion被使用以獲取真實序列。雖然在我們的流程中每個階段的質(zhì)量依賴其他階段的表現(xiàn),即較差的分割也許導(dǎo)致較差的重建,評估不同的模塊還是有價值的。
位姿估計。我們比較了估計和真值軌跡通過計算絕對軌跡(AT)均方根誤差(RMSE)對于場景中的每個物體。在仿真數(shù)據(jù)中的結(jié)果被展示在表2和圖7中。在真實序列中的結(jié)果被放在補充材料中(Co-Fusion: Real-time Segmentation, Tracking and Fusion of Multiple Objects)。
表2. 估計軌跡的AT-RMSEs用于我們的仿真序列(毫米)。圖7. 估計軌跡和真值的比較對于每個物體在(a)ToyCar3和(b)Room4序列中。IoU測量對于每個標(biāo)簽和每幀在(c)ToyCar3和(d)Room4序列中。car1和car2的圖開始較晚,因為之前該物體還沒有被分割。運動分割。因為分割階段的結(jié)果是純2D的,分割質(zhì)量的傳統(tǒng)度量被使用。我們計算交并比(IoU)測量對于每個編號對于仿真序列的每幀(我們沒有真值分割對于真實序列)。圖7展示了在ToyCar3和Room4序列中的IoU。
融合。為了獲取融合質(zhì)量,我們可以分別或聯(lián)合檢驗每個物體的3D重建誤差,通過在同一個坐標(biāo)系統(tǒng)中輸出幾何。該誤差強烈依賴跟蹤,但是很好地突出了整個系統(tǒng)的質(zhì)量。對于積極模型的統(tǒng)一地圖中的每個面元,我們計算到真值網(wǎng)格上最近點的距離,在對齊兩個表示之后。圖8可視化了重建誤差通過一個熱度圖,并突出了與ElasticFusion的差異。對于真實場景Esone1我們獨立地計算每個物體的3D重建誤差。結(jié)果展示在表1和圖10中。
圖10. Esone1序列的圖示。標(biāo)記被添加到真實3D物體上,并使用OptiTrack系統(tǒng)跟蹤。高度準(zhǔn)確的3D掃描儀被用于獲取物體幾何的真值數(shù)據(jù)以允許定量評估。定性結(jié)果。我們執(zhí)行一組定性實驗來證實Co-Fusion的能力。它的一個優(yōu)點是放寬了3D掃描過程,因為我們不需要依賴靜態(tài)世界假設(shè)。特別地,用戶可以一只手手持并旋轉(zhuǎn)一個物體,另一只手在物體周圍移動深度傳感器。這種操作模式提供了更多的靈活性,與需要轉(zhuǎn)盤的方法相比。圖9展示了實驗結(jié)果。
圖9. 手持泰迪熊的重建結(jié)果。左手需要旋轉(zhuǎn)熊,右手移動RGB-D傳感器,需要跟蹤兩個獨立的運動。我們的最終證實展示了Co-Fusion連續(xù)跟蹤和精修物體當(dāng)它們被一個接著一個被放置到桌面上時,如圖1所示。成功分割的結(jié)果被展示在圖1(b)中。
部分參考文獻(xiàn)
[8] M. Keller, D. Lefloch, M. Lambers, S. Izadi, T. Weyrich, and A. Kolb. Real-time 3d reconstruction in dynamic scenes using point-based fusion. In International Conference on 3D Vision, 3DV, Washington, DC, USA, 2013. IEEE Computer Society.
[9] P. Krahenbuhl and V. Koltun. Efficient inference in fully connected crfs with gaussian edge potentials. In Advances in Neural Information Processing Systems. Curran Associates, Inc., 2011.
總結(jié)
以上是生活随笔為你收集整理的rgb fusion检测不到显卡_【论文阅读27】Co-Fusion的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: diskgenius 接触“只读“失败_
- 下一篇: honeywell新风系统控制面板说明_