CosyPose: Consistent multi-view multi-object 6D pose estimation
CosyPose: Consistent multi-view multi-object 6D pose estimation
摘要
我們介紹一種用于恢復(fù)場景中多個已知對象的6D姿勢的方法,該場景由一組具有未知相機(jī)視點(diǎn)的輸入圖像捕獲。首先,我們提出一種單視圖單對象6D姿勢估計(jì)方法,該方法用于生成6D對象姿勢假設(shè)。其次,我們開發(fā)了一種魯棒的方法來匹配不同輸入圖像上的單個6D對象姿勢假設(shè),以便共同估算單個一致場景中所有對象的相機(jī)視點(diǎn)和6D姿勢。我們的方法顯式處理對象對稱性,不需要深度測量,對丟失或不正確的對象假設(shè)具有魯棒性,并自動恢復(fù)場景中的對象數(shù)量。第三,我們針對給定多個對象假設(shè)及其在視圖之間的對應(yīng)關(guān)系,開發(fā)了一種用于全局場景優(yōu)化的方法。這是通過解決對象級別的束調(diào)整問題來實(shí)現(xiàn)的,該問題可以細(xì)化攝像機(jī)和對象的姿勢,以使所有視圖中的重投影誤差最小。我們證明了被稱為CosyPose的擬議方法在兩個具有挑戰(zhàn)性的基準(zhǔn)上大大優(yōu)于當(dāng)前的單視圖和多視圖6D對象姿態(tài)估計(jì)的最新結(jié)果:YCB-Video和T-LESS數(shù)據(jù)集。項(xiàng)目頁面上提供了代碼和預(yù)訓(xùn)練模型。
1簡介
這項(xiàng)工作的目標(biāo)是估算由多個位置未知的攝像機(jī)捕獲的3D場景中多個已知對象的準(zhǔn)確6D姿勢,如圖1所示。這是一個具有挑戰(zhàn)性的問題,因?yàn)榧y理-許多對象的性質(zhì)較少,存在多個相似對象,場景中對象的數(shù)量和類型未知以及相機(jī)的位置未知。然而,解決該問題將在機(jī)器人技術(shù)中具有重要的應(yīng)用,其中場景中對象的準(zhǔn)確位置和方向的知識將允許機(jī)器人計(jì)劃,導(dǎo)航和與環(huán)境交互。
物體姿態(tài)估計(jì)是最古老的計(jì)算機(jī)視覺問題之一[1-3],但它仍然是一個活躍的研究領(lǐng)域[4-11]。在RGB(無深度)圖像上操作的最佳方法[7,8,10-12]是基于可訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)的,并且能夠處理對稱或無紋理對象,這對于依賴局部[3,13-16]或全局[17]基于梯度的圖像特征的早期方法是具有挑戰(zhàn)性的。然而,這些作品中的大多數(shù)都是獨(dú)立考慮對象,并使用單一輸入(RGB)圖像來估計(jì)它們的姿勢。然而,在實(shí)踐中,場景由許多對象組成,并且場景的多個圖像通常是可用的,例如通過單個移動攝像機(jī)或在多攝像機(jī)設(shè)置中獲得。在這項(xiàng)工作中,我們解決了這些限制,并開發(fā)了一種方法,該方法結(jié)合來自多個視圖的信息,并聯(lián)合估計(jì)多個對象的姿勢,以獲得單個一致的場景解釋。
雖然從多個視圖聯(lián)合估計(jì)多個對象的姿勢的想法可能看起來很簡單,但需要解決以下挑戰(zhàn)。首先,當(dāng)攝像機(jī)之間的相對變換未知時,在單個圖像中做出的物體姿態(tài)假設(shè)不容易在公共參考系中表達(dá)。在實(shí)際場景中,由于場景缺乏紋理或基線較大,使用局部特征配準(zhǔn)不能很容易地恢復(fù)攝像機(jī)校準(zhǔn),這種情況經(jīng)常出現(xiàn)。第二,單視圖6D物體姿態(tài)假設(shè)存在誤報(bào)和漏檢的嚴(yán)重錯誤。第三,從輸入圖像估計(jì)的候選6D對象姿態(tài)是有噪聲的,因?yàn)樗鼈兪艿絾我晥D方法固有的深度模糊的影響。
在這項(xiàng)工作中,我們描述了一種解決這些挑戰(zhàn)的方法。我們從6D對象姿勢假設(shè)開始,我們使用一種受DeepIM啟發(fā)的新的渲染-比較方法從每個視圖估計(jì)這些假設(shè)[10]。首先,我們在不同的視角下匹配各個對象的姿態(tài)假設(shè),并使用得到的對象級別的對應(yīng)關(guān)系來恢復(fù)攝像機(jī)之間的相對位置。其次,采用基于RANSAC的穩(wěn)健目標(biāo)級匹配方法,解決了目標(biāo)檢測中的粗差問題,優(yōu)化了整體場景一致性。第三,使用基于對象級束調(diào)整的全局精化過程顯著改善了噪聲單視對象姿勢。我們的方法優(yōu)化了多視圖一致性,因此被稱為CosyPose,其結(jié)果是輸入場景的單個一致性重建。我們的SingleView單對象姿態(tài)估計(jì)方法在YCB-Video[18]和T-less[19]數(shù)據(jù)集上獲得了最先進(jìn)的結(jié)果,在T-less上獲得了比最先進(jìn)的[7]顯著的34.2%的絕對改進(jìn)。我們的多視角框架在YCB-Video上的表現(xiàn)明顯優(yōu)于[20],同時不需要已知的攝像機(jī)姿勢,也不限于每個場景中每個類別的單個對象。在這兩個數(shù)據(jù)集上,我們顯示我們的多視角解決方案在單視角基線上顯著提高了姿態(tài)估計(jì)和6D檢測精度。
2 Related work
我們的工作建立在基于RGB圖像和對象級SLAM的單視圖和多視圖物體6D姿態(tài)估計(jì)結(jié)果的基礎(chǔ)上。
單視圖單對象6D位姿估計(jì)。
物體姿態(tài)估計(jì)問題[15,16]已經(jīng)通過使用局部不變特征[3,13]從2D-3D對應(yīng)關(guān)系估計(jì)物體姿態(tài),或者通過使用模板匹配直接估計(jì)物體姿態(tài)[14]來實(shí)現(xiàn)。但是,局部特征不適用于紋理較少的對象,并且全局模板通常無法檢測到部分遮擋的對象。這兩種方法(基于特征和模板匹配)都使用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行了重新研究。卷積神經(jīng)網(wǎng)絡(luò)(CNN)可用于檢測2D[4,6,18,21,22]中的對象特征或直接找到2D到3D的對應(yīng)關(guān)系[5,7,8,23]。深度方法也被用來匹配隱式姿勢特征,這可以在不需要地面真實(shí)姿勢注釋的情況下學(xué)習(xí)[12]。可以使用有效地在對象周圍移動相機(jī)以使對象的渲染圖像與輸入圖像最佳匹配的迭代過程來進(jìn)一步細(xì)化對象的估計(jì)的6D姿勢[4,10]。這樣的改進(jìn)步驟提供了重要的性能改進(jìn),并且正在成為評估過程的最后階段的常見實(shí)踐[8,11]。我們在第3.2節(jié)中描述的單視圖單對象姿態(tài)估計(jì)建立在DeepIM[10]的基礎(chǔ)上。使用深度傳感器[10,11,18]可以進(jìn)一步提高6D位姿估計(jì)的性能,但在這項(xiàng)工作中,我們關(guān)注的是最具挑戰(zhàn)性的場景,即只有RGB圖像可用。
多視圖單目標(biāo)六維位姿估計(jì)。
可以使用對象的多個視圖來解決深度模糊問題,并獲得有關(guān)遮擋的穩(wěn)健性。以前使用局部不變特征的工作包括[15,16,24,25],并且涉及某種形式的特征匹配,以建立跨視圖的對應(yīng)關(guān)系,從而聚集來自多個視點(diǎn)的信息。最近,利用深度神經(jīng)網(wǎng)絡(luò)重新討論了多視圖單對象姿勢估計(jì)問題,該深度神經(jīng)網(wǎng)絡(luò)預(yù)測每個視圖[20]中的對象姿勢候選,并在假定相機(jī)姿勢已知的情況下從多個視圖聚集信息。相反,我們的工作并不假設(shè)攝像機(jī)的姿勢是已知的。我們通過實(shí)驗(yàn)證明,盡管我們需要的信息更少,但是我們的方法要優(yōu)于[20]。
多視點(diǎn)多對象6D姿態(tài)估計(jì)。
其他作品將場景中的所有對象放在一起考慮,以便以對象和攝像機(jī)姿勢在公共坐標(biāo)系中的緊湊表示形式聯(lián)合估計(jì)場景的狀態(tài)。這個問題被稱為對象級SLAM[26],其中基于深度的對象姿態(tài)估計(jì)方法[27]被用來從單個圖像中的數(shù)據(jù)庫中識別對象并估計(jì)它們的姿態(tài)。假設(shè)傳感器的運(yùn)動是連續(xù)的,則使用深度測量跨幀跟蹤各個對象。連續(xù)的深度測量還可以使用ICP[28]生成相機(jī)姿勢的假設(shè),并在聯(lián)合優(yōu)化過程中最終細(xì)化對象和相機(jī)的姿勢。另一種方法[29]使用局部RGBD面片來生成對象假設(shè)并找到場景的最佳視角。然而,所有這些方法都強(qiáng)烈依賴深度傳感器來估計(jì)場景的3D結(jié)構(gòu),而我們的方法只利用RGB圖像。此外,它們假定視圖之間的時間連續(xù)性,這也不是我們的方法所要求的。
其他工作認(rèn)為單目RGB僅限于目標(biāo)級SLAM[30-32]。相關(guān)的還有[33],其中跨多個視圖和局部特征的語義2D關(guān)鍵點(diǎn)對應(yīng)被用來聯(lián)合估計(jì)單個人的姿勢和觀察攝像機(jī)的位置。所有這些工作都依賴于局部圖像特征來估計(jì)相機(jī)姿勢。相反,我們的工作利用了神經(jīng)網(wǎng)絡(luò)生成的6D姿勢假設(shè),該假設(shè)允許在基于特征的配準(zhǔn)失敗的情況下恢復(fù)相機(jī)姿勢,例如,對于T-less數(shù)據(jù)集的復(fù)雜的無紋理圖像就是這種情況。此外,[31,32]不考慮對象的全6D姿勢,[20,33]只考慮每個對象的單個實(shí)例的場景。相比之下,我們的方法能夠處理具有同一對象的多個實(shí)例的場景。
3 多視點(diǎn)多目標(biāo)6維姿態(tài)估計(jì)
在這一部分中,我們提出了我們的多視點(diǎn)多目標(biāo)姿態(tài)估計(jì)框架。我們首先概述一下該方法(SEC.。3.1和圖2),然后在其余部分詳細(xì)說明該方法的三個主要步驟。
3.1方法概述
我們的目標(biāo)是在給定一組RGB圖像的情況下重建由多個對象組成的場景。我們假設(shè)我們知道感興趣對象的3D模型。但是,場景中可以有多個相同類型的對象,并且沒有關(guān)于場景中對象的數(shù)量或類型的信息。此外,在某些視圖中可能看不到對象,攝影機(jī)之間的相對姿勢也是未知的。我們的輸出是一個場景模型,其中包括每種類型的對象的數(shù)量、它們的6D姿勢以及攝像機(jī)的相對姿勢。我們的方法由三個主要階段組成,如圖2所示。
圖2:多視角多目標(biāo)6D姿態(tài)估計(jì)。在第一階段,我們分別獲得每個視圖中的初始候選對象。在第二階段,我們將這些候選對象在不同的視圖上進(jìn)行匹配,以恢復(fù)單個一致的場景。在第三階段,我們對所有物體和攝像機(jī)姿態(tài)進(jìn)行全局細(xì)化,以最小化多視點(diǎn)重投影誤差。
在第一階段,我們在單視RGB目標(biāo)檢測和6D姿態(tài)估計(jì)的最新方法的成功基礎(chǔ)上進(jìn)行了改進(jìn)。給定一組具有已知3D模型的對象和場景的單個圖像,我們?yōu)槊總€對象輸出一組候選檢測,并且對于每個檢測,輸出對象相對于與該圖像相關(guān)聯(lián)的相機(jī)的6D姿勢。請注意,這些檢測和姿勢有些是錯誤的,有些是丟失的。因此,我們認(rèn)為在該階段中獲得的姿勢是一組初始對象候選,即,可以在給定視圖中看到的對象以及它們相對于該視圖的姿勢的估計(jì)。此對象候選生成過程在小節(jié)中介紹。3.2.。
第二階段稱為對象候選匹配,在小節(jié)中有詳細(xì)介紹。3.3中,我們對多個視圖中可見的對象進(jìn)行匹配,以獲得單個一致的場景。這是一個困難的問題,因?yàn)閬碜缘谝浑A段的候選對象通常包括許多錯誤,這是由于(I)可能被誤識別或姿勢估計(jì)可能完全錯誤的嚴(yán)重遮擋對象;(Ii)相似對象之間的混淆;以及(Iii)未出現(xiàn)在訓(xùn)練集中且未被正確檢測到的不尋常姿勢。為了應(yīng)對這些挑戰(zhàn),我們從運(yùn)動結(jié)構(gòu)(SFM)文獻(xiàn)[34,35]中使用的穩(wěn)健補(bǔ)丁匹配策略中獲得靈感。特別是,我們設(shè)計(jì)了一種在精神上類似于[36]的匹配策略,但是我們在不同視圖之間匹配整個3D對象以獲得單個一致的3D場景,而不是匹配單個3D對象上的局部2D補(bǔ)丁[36]。
我們方法的最后階段(在第3.4節(jié)中介紹)是全局場景優(yōu)化。我們從捆綁調(diào)整[37]中獲得靈感,但優(yōu)化是在對象級別執(zhí)行的:所有對象和相機(jī)的6D姿勢都被細(xì)化,以最大限度地減少全局重新投影誤差。
3.2階段1:對象候選生成
我們的系統(tǒng)采用場景{ia}的多張照片和一組3D模型作為輸入,每個照片與對象標(biāo)簽l相關(guān)聯(lián)。我們假設(shè)與圖像ia相關(guān)聯(lián)的相機(jī)Caa的固有參數(shù)是已知的,這通常是單視圖姿勢估計(jì)方法中的情況。在每個視圖Ia中,我們使用對象檢測器(例如,FasterRCNN[38],RetinaNet[39])獲得一組對象檢測,并且使用單視圖單對象姿勢估計(jì)器(例如,PoseCNN[18],DPOD[8],DeepIM[10])獲得一組候選姿勢估計(jì)。雖然我們的方法與使用的特定方法無關(guān),但我們在DeepIM[10]的啟發(fā)下開發(fā)了我們自己的單視圖單對象姿態(tài)估計(jì)器,它比現(xiàn)有技術(shù)有了很大改進(jìn),我們將在下一段描述這一點(diǎn)。視圖中的每個2D候選檢測由索引α標(biāo)識,并且對應(yīng)于對象候選Oa、α,該對象候選與預(yù)測的對象標(biāo)簽La、α和相對于相機(jī)Ca的6D姿勢估計(jì)TCaOa、α相關(guān)聯(lián)。我們將6D姿態(tài)T∈SE(3)建模為由3D旋轉(zhuǎn)矩陣和3D平移向量組成的4×4均勻矩陣。
單視圖六維位姿估計(jì)。
本文介紹了一種基于DeepIM[10]思想的單視六維物體姿態(tài)估計(jì)方法,并對其進(jìn)行了一些簡化和技術(shù)改進(jìn)。首先,我們使用基于EfficientNet-B3[40]的較新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并且在訓(xùn)練時不包括輔助信號。其次,我們利用了最近在[41]中引入的旋轉(zhuǎn)參數(shù)化,它已經(jīng)被證明比四元數(shù)更穩(wěn)定地產(chǎn)生CNN訓(xùn)練。第三,我們在[42]之后的損失中分離深度和平移預(yù)測,并像在[9]中那樣顯式地處理對稱性,而不是使用點(diǎn)匹配損失。第四,我們不是像[10]中那樣在訓(xùn)練過程中將焦距固定為1,而是使用與裁剪后的圖像相當(dāng)?shù)南鄼C(jī)焦距。第五,除了兩個數(shù)據(jù)集提供的真實(shí)訓(xùn)練圖像外,我們還使用為T-less提供的CAD模型和為YCB-Video提供的重建模型為每個數(shù)據(jù)集繪制了一百萬幅圖像。CNN首先只使用合成數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,然后在真實(shí)圖像和合成圖像上進(jìn)行微調(diào)。最后,我們在訓(xùn)練模型的同時對RGB圖像進(jìn)行了數(shù)據(jù)增強(qiáng),這已經(jīng)被證明是在T-less上獲得良好性能的關(guān)鍵[12]。我們還注意到,這種方法只需在訓(xùn)練和測試過程中提供一個規(guī)范姿態(tài)作為輸入姿態(tài)估計(jì),就可以用于粗略估計(jì)。我們在距攝像機(jī)1米處渲染物體,并使用這種方法對T-less進(jìn)行粗略估計(jì)。附錄中提供了更多詳細(xì)信息。
對象對稱性。
處理對象的對稱性是對象姿態(tài)估計(jì)的主要挑戰(zhàn),因?yàn)閷ο蟮淖藨B(tài)只能估計(jì)到對稱。對于我們的對象候選姿勢估計(jì),這一點(diǎn)尤其正確。因此,我們需要明確地考慮對稱性和姿態(tài)估計(jì)。每個3D模型l與一組對稱S(L)相關(guān)聯(lián)。遵循[43]中介紹的框架,我們將對稱集S(L)定義為保持對象l的外觀不變的變換集S:
其中R(l,X)是在姿勢X中捕獲的對象l的渲染圖像,S是與對稱關(guān)聯(lián)的剛體運(yùn)動。請注意,對于具有對稱軸的對象(例如碗),S(L)是無窮大的。
在給定3D對象l的一組對稱性S(L)的情況下,我們定義了對稱距離DL,它度量由變換T1和T2表示的兩個6D姿勢之間的距離。給定與|XL|3D點(diǎn)x∈XL的集合XL相關(guān)聯(lián)的對象l,我們定義:
DL(T1,T2)測量通過T1和T2變換的點(diǎn)之間的平均誤差,以使對稱S最好地對齊(變換的)點(diǎn)。在實(shí)踐中,為了計(jì)算具有對稱軸的對象的這一距離,我們圍繞每個對稱軸使用64個旋轉(zhuǎn)角對S(L)進(jìn)行離散化,類似于[9]。
3.3.階段2:對象候選匹配
如圖2所示,給定所有視圖的對象候選對象{Oa,α},我們的匹配模塊的目標(biāo)是(I)移除不同視圖之間不一致的對象候選對象,以及(Ii)匹配對應(yīng)于同一物理對象的對象候選對象。我們通過以下兩個步驟來解決這個問題:(A)選擇所有視點(diǎn)對中的候選對象對;(B)場景級匹配。
A.2-視圖候選對選擇。
我們首先關(guān)注場景的單個視圖對(Ia,Ib),并找到所有對象候選對(Oa,α,Ob,β),每個視圖中一個對象對對應(yīng)于這兩個視圖中的同一物理對象。為此,我們使用RANSAC程序,其中我們假設(shè)兩個相機(jī)之間的相對姿勢,并計(jì)算內(nèi)插點(diǎn)的數(shù)量,即兩個視圖中一致的候選對象對的數(shù)量。然后,我們選擇具有最多內(nèi)置值的解決方案,這給出了兩個視圖中的候選對象之間的關(guān)聯(lián)。在這一節(jié)的其余部分,我們將更詳細(xì)地描述如何對相對相機(jī)姿勢進(jìn)行采樣,以及如何定義內(nèi)嵌候選對。
相對相機(jī)姿勢的采樣。
采樣有意義的相機(jī)姿勢是我們方法面臨的主要挑戰(zhàn)之一。事實(shí)上,直接隨機(jī)采樣可能的相機(jī)姿勢的空間將是低效的。取而代之的是,像在RANSAC中一樣,我們在兩個視圖中采樣候選對象對(與相同的對象標(biāo)簽相關(guān)聯(lián)),假設(shè)它們對應(yīng)于相同的物理對象,并使用它們來推斷相對相機(jī)姿勢假設(shè)。然而,由于對象可以具有對稱性,單個候選對象對不足以獲得沒有歧義的相對姿勢假設(shè),因此我們采樣了兩對對象候選對象,這在大多數(shù)情況下足以消除對稱性的歧義。
具體地,我們對兩個具有成對一致性標(biāo)簽的候選對象對(Oa,α,Ob,β)和(Oa,γ,Ob,δ)進(jìn)行了采樣,并利用它們構(gòu)建了一個相對相機(jī)姿勢假設(shè)TCaCb。我們通過(I)假設(shè)(Oa,α,Ob,β)對應(yīng)于相同的物理對象,以及(Ii)通過假設(shè)(Oa,γ,Ob,δ)也對應(yīng)于相同的物理對象來消除對稱性的歧義,從而選擇使它們的對稱距離最小的對稱,從而獲得相對相機(jī)姿勢假設(shè)
其中l(wèi)=la,α=lb,β是與第一對對象關(guān)聯(lián)的對象標(biāo)簽,S是與第二對對象(Oa,γ和Ob,δ)關(guān)聯(lián)的點(diǎn)云最佳對齊的對象對稱。如果兩個物理對象的并集是對稱的,例如兩個球體,則計(jì)算出的姿勢可能不正確,但不會被第三對對象驗(yàn)證,并且該假設(shè)將被丟棄。
計(jì)算成對的Inlier候選者。
讓我們假設(shè)相機(jī)TCaCb之間有一個相對姿勢假設(shè)。對于第一視圖中的每個對象候選Oa,α,我們在第二視圖Ob,β中找到具有相同標(biāo)簽l=1a,α=lb,β的對象候選,其最小化對稱距離DL(TCaOa,α,TCaCbTCbOb,β)。換句話說,在相機(jī)之間假設(shè)的相對姿勢下,Ob,β是第二視圖中最接近Oa,α的候選對象。如果關(guān)聯(lián)的對稱距離小于給定的閾值C,則這對(Oa,α,Ob,β)被認(rèn)為是內(nèi)插器。內(nèi)插器的總數(shù)被用來對相對相機(jī)姿勢TCaCb進(jìn)行評分。請注意,我們放棄了內(nèi)嵌器少于3個的假設(shè)。
B.場景級匹配。
我們使用應(yīng)用于每個圖像對的兩視圖候選對選擇的結(jié)果來定義所有候選對象之間的圖形。每個頂點(diǎn)對應(yīng)于一個視圖中的一個候選對象,而邊對應(yīng)于從兩視圖候選對選擇中選擇的對,即具有足夠內(nèi)嵌支持的對。我們首先刪除孤立的頂點(diǎn),這些頂點(diǎn)對應(yīng)于尚未由其他視圖驗(yàn)證的候選對象。然后,我們將唯一的物理對象與圖中的每個連接組件相關(guān)聯(lián),該物理對象對應(yīng)于來自不同視圖的一組初始候選對象。我們稱這些物理對象為P1,……PN,其中N是物理對象的總數(shù),即圖中連通分量的數(shù)量。我們寫(a,α)∈Pn)表示對象候選Oa,α在對象Pn的連通分量中的事實(shí)。由于連接組件中的所有對象共享相同的對象標(biāo)簽(否則它們不可能被連接),所以我們可以無歧義地將對象標(biāo)簽ln關(guān)聯(lián)到每個物理對象Pn。
3.4階段3:場景細(xì)化
經(jīng)過前一階段,知道了各個圖像中候選目標(biāo)之間的對應(yīng)關(guān)系,去除了不一致的候選目標(biāo)。最后一個階段的目標(biāo)是通過對物體和攝像機(jī)姿勢進(jìn)行全局聯(lián)合細(xì)化來恢復(fù)唯一和一致的場景模型。
詳細(xì)地說,此階段的目標(biāo)是估計(jì)由變換TP1表示的物理對象PN的姿勢。。。、TPN和攝影機(jī)CV,由變換TC1、.。。。,TCV,在一個共同的世界坐標(biāo)框架中。這類似于標(biāo)準(zhǔn)的捆綁調(diào)整問題,其目標(biāo)是恢復(fù)場景的3D點(diǎn)以及相機(jī)姿勢。這通常是通過最小化重建損失來解決的,該重建損失測量3D點(diǎn)的投影與它們在相機(jī)中的測量之間的2D差異。在我們的例子中,我們引入了在對象級別操作的重建損失,而不是像在捆綁平差設(shè)置中那樣在點(diǎn)級別進(jìn)行操作。
更正式地說,對于場景中出現(xiàn)的每個對象,我們引入一個考慮了對稱性的對象候選重新投影損失。我們定義與物理對象PN相關(guān)聯(lián)的候選對象Oa、α(即,(a,α)∈Pn))的損失以及相對于CAA的估計(jì)候選對象姿勢TCaOa、α:
其中||·||是截?cái)嗟腖2損失,l=ln是物理對象Pn的標(biāo)簽,Tpn是對象Pn在世界坐標(biāo)框架中的6D姿勢,TCa是相機(jī)在世界坐標(biāo)框架中的姿勢,Xl是與對象l的3D模型相關(guān)聯(lián)的3D點(diǎn)集,S(L)是對象模型l的對稱性,并且運(yùn)算符πa對應(yīng)于相機(jī)Ca的固有校準(zhǔn)矩陣在相機(jī)幀Ca中表達(dá)的3D點(diǎn)的2D投影。公式中的內(nèi)部和。(5)是(I)對象模型l的3D點(diǎn)x與與物理對象相關(guān)聯(lián)的變換Tcaoα的單視圖估計(jì)(即,(a,α)∈Pn)(第一項(xiàng),圖像測量))與(Ii)通過相機(jī)Ca的全局估計(jì)(第二項(xiàng),全局估計(jì))投影到圖像的對象Pnn上的3D點(diǎn)Tpnx之間的誤差。
恢復(fù)最能解釋測量的獨(dú)特場景的狀態(tài)包括解決以下共識優(yōu)化問題:
其中第一和是所有物理對象Pn上的和,第二和是對應(yīng)于物理對象Pn的所有對象候選Oa、α上的第二和。換句話說,我們希望找到對象姿勢Tpn和相機(jī)姿勢TCato的全局估計(jì),以匹配在個體視圖中獲得的(Inlier)對象候選姿勢TCaOa,α。該優(yōu)化問題采用Levenberg-MarQuart算法進(jìn)行求解。我們在附錄中提供了更多詳細(xì)信息。
表1:單視圖6D姿態(tài)估計(jì)。在YCB-Video(A)和T-less數(shù)據(jù)集(B)上與最新方法的比較。
4結(jié)果
在本部分中,我們在YCB-Video[18]和T-less[19]數(shù)據(jù)集上對我們的方法進(jìn)行了實(shí)驗(yàn)評估,這兩個數(shù)據(jù)集都為包含多個對象的雜亂場景提供了多個視圖和基本真實(shí)的6D對象姿勢。在證券交易委員會。4.1,我們首先驗(yàn)證和分析了我們的單視圖單目標(biāo)六維位姿估計(jì)器。值得注意的是,我們的單視圖單對象6D姿態(tài)估計(jì)方法已經(jīng)改善了這兩個數(shù)據(jù)集的最新結(jié)果。在證券交易委員會。4.2中,我們通過演示對單視圖基線的一致改進(jìn)來驗(yàn)證我們的多視圖多對象框架。
4.1單視單對象實(shí)驗(yàn)
YCB-Video評估。
在[5,10,18] 之后,我們從12個測試場景的視頻中評估了2949個關(guān)鍵幀的子集。我們使用標(biāo)準(zhǔn)的Add-S和Add(-S)指標(biāo)及其曲線下面積18。我們使用與PoseCNN[18]提供的DeepIM[10]相同的檢測和粗略估計(jì)來評估我們的精化方法。我們運(yùn)行了兩次姿勢優(yōu)化網(wǎng)絡(luò)迭代。結(jié)果列於表一a。我們的方法比目前最先進(jìn)的DeepIM[10]在Add-S和Add(-S)度量的AUC上改進(jìn)了大約2個點(diǎn)。
對T-less的評估。
如第3.2節(jié)所述,我們使用單視圖方法進(jìn)行粗略姿勢估計(jì)和精細(xì)處理。我們將我們的方法與最近兩種僅支持RGB的方法Pix2Pose[7]和Implative[12]進(jìn)行了比較。為了進(jìn)行公平的比較,我們使用了與[7]中相同的RetinaNet模型中的檢測。我們報(bào)告了SISO任務(wù)的結(jié)果[44],并使用標(biāo)準(zhǔn)的視覺表面差異(VSD)回憶度量,其參數(shù)與[7,12]中的相同。結(jié)果載列於表1b。在evsd<0.3度量上,與現(xiàn)有最先進(jìn)的方法相比,我們的{粗略+細(xì)化}解決方案獲得了顯著的34.2%的絕對改進(jìn)。請注意,[10]沒有報(bào)告T-less的結(jié)果。我們還在此數(shù)據(jù)集上評估了與DeepIM[10]中使用的組件相比,我們的單視圖方法的關(guān)鍵組件的優(yōu)勢。更準(zhǔn)確地說,我們評估了基本網(wǎng)絡(luò)(我們的EfficientNet與FlowNet預(yù)先訓(xùn)練的)、損失(對稱的、無糾纏的與L1范數(shù)的點(diǎn)匹配損失)、旋轉(zhuǎn)參數(shù)化(我們使用[41]與四元數(shù))以及數(shù)據(jù)增強(qiáng)(我們的顏色增強(qiáng),類似于[12]與無)的重要性。損失、網(wǎng)絡(luò)和旋轉(zhuǎn)參數(shù)帶來了微小但明顯的改善。在T-less數(shù)據(jù)集上使用數(shù)據(jù)增強(qiáng)是至關(guān)重要的,在T-less數(shù)據(jù)集上,訓(xùn)練僅在暗背景下的合成數(shù)據(jù)和對象的真實(shí)圖像上執(zhí)行。
4.2多視圖實(shí)驗(yàn)
如上所示,我們的單視圖方法在兩個數(shù)據(jù)集上都獲得了最先進(jìn)的結(jié)果。我們現(xiàn)在評估我們的多視圖方法在具有多個對象和多個視圖的場景中估計(jì)6D姿勢的性能。
實(shí)現(xiàn)詳情。在這兩個數(shù)據(jù)集上,我們使用相同的超參數(shù)。在階段1中,我們只考慮得分高于0.3的對象檢測,以限制檢測的數(shù)量。在第二階段,我們使用RANSAC 3D Inlier閾值C=2 cm。此低閾值確保在關(guān)聯(lián)候選對象時不會考慮離群值。對于每對視圖,我們使用的最大RANSAC迭代次數(shù)為2000次,但只有包含數(shù)十個檢測的T-less數(shù)據(jù)集的最復(fù)雜場景才能達(dá)到這一限制。例如,在兩個視圖的上下文中,每個視圖中有六個不同的6D候選對象,僅15次RANSAC迭代就足以探索所有相對相機(jī)姿勢假設(shè)。對于場景優(yōu)化(階段3),我們使用100次Levenberg-MarQuart迭代(優(yōu)化通常在不到10次迭代中收斂)。
評估詳情。在單視圖評估中,對象的姿勢是相對于相機(jī)幀來表達(dá)的。為了與SingleView基線進(jìn)行公平的比較,我們還評估了攝像機(jī)幀中的對象姿勢,這是我們使用全局場景細(xì)化方法估計(jì)的絕對對象姿勢和攝像機(jī)位置來計(jì)算的。6D姿態(tài)估計(jì)的標(biāo)準(zhǔn)度量強(qiáng)烈地懲罰了檢測召回率低的方法。為了避免因刪除無法在多個視圖中驗(yàn)證的對象而受到懲罰,我們因此將初始候選對象添加到預(yù)測集合中,但其置信度得分嚴(yán)格低于我們的全景重建的預(yù)測。
多視圖多對象定量結(jié)果。就我們所知,在由幾幅從未知視點(diǎn)拍攝的RGB圖像捕獲的場景中,恢復(fù)多個已知對象的6D對象姿勢的問題還沒有在YCBVideo和T-less數(shù)據(jù)集上的先前工作報(bào)告結(jié)果中得到解決。最近的工作是[20],它考慮了YCB-Video上的多視角場景,并使用地面真實(shí)相機(jī)姿勢來對齊視點(diǎn)。在[20]中,使用5個視圖提供預(yù)測結(jié)果。我們使用表2:多視圖多對象結(jié)果。(A)在單視圖和多視圖場景中,我們的方法在YCB-Video數(shù)據(jù)集上的性能都明顯優(yōu)于[20],而且不需要已知的攝像機(jī)姿勢。(B)無人數(shù)據(jù)集上的結(jié)果。使用多個視圖明顯改善了我們的結(jié)果。
表3:場景優(yōu)化階段的好處。我們報(bào)告全局場景細(xì)化前后Inlier候選對象的姿勢添加-S錯誤(以毫米為單位)。場景細(xì)化提高了6D位姿估計(jì)精度。
我們的方法使用相同數(shù)量的輸入圖像,但沒有使用地面真實(shí)校準(zhǔn)和報(bào)告結(jié)果,如表2a所示。我們的方法在單視圖和多視圖場景中的性能都明顯優(yōu)于[20]
我們還對T-less進(jìn)行了多視角實(shí)驗(yàn),觀看次數(shù)可變。對于add-S<0.1d和evsd<0.3,我們遵循多實(shí)例BOP[44]協(xié)議。我們還分析了類似于目標(biāo)檢測的標(biāo)準(zhǔn)做法的準(zhǔn)確率和召回率之間的權(quán)衡。我們考慮滿足ADDS<0.1d和報(bào)表MAP@ADD-S<0.1d的正預(yù)測。表2b顯示了1000張圖像的活體任務(wù)的結(jié)果。據(jù)我們所知,還沒有其他方法報(bào)告這項(xiàng)任務(wù)的結(jié)果。正如預(yù)期的那樣,與單視圖基線相比,我們的多視圖方法帶來了顯著的改進(jìn)。
場景優(yōu)化的好處。為了證明全局場景細(xì)化(階段3)的好處,我們在表3中報(bào)告了在求解公式(6)的優(yōu)化問題之前和之后Inlier候選的平均Add-S誤差。我們注意到明顯的相對改善,在兩個數(shù)據(jù)集上都有20%左右的改善。
相對相機(jī)位姿估計(jì)。該方法的一個重要特點(diǎn)是,它不需要知道攝像機(jī)的位置,而是從6D候選對象中穩(wěn)健地估計(jì)出攝像機(jī)位置。我們研究了聯(lián)合相機(jī)姿態(tài)估計(jì)的替代方案。首先,我們使用了流行的基于特征的SfM軟件COLMAP[45,46]來恢復(fù)相機(jī)姿勢。在YCB-Video數(shù)據(jù)集中隨機(jī)抽樣的5個視圖組上,COLMAP只在67%的情況下輸出相機(jī)姿勢,而我們的方法有95%的情況下輸出相機(jī)姿勢。在比較困難的T-less數(shù)據(jù)集的8個視圖組上,COLMAP只在4%的情況下輸出相機(jī)姿勢,而我們的方法只有74%的情況下輸出相機(jī)姿勢。因此,與COLMAP相比,我們的方法表現(xiàn)出了很大的興趣,COLMAP使用特征來恢復(fù)相機(jī)姿勢,特別是對于像T-less數(shù)據(jù)集中這樣復(fù)雜的無紋理場景。其次,我們沒有使用我們的方法估計(jì)相機(jī)姿勢,而是使用兩個數(shù)據(jù)集可用的地面真實(shí)相機(jī)姿勢進(jìn)行了調(diào)查。我們發(fā)現(xiàn),與由我們的方法自動恢復(fù)的攝像機(jī)姿勢相比,使用地面真實(shí)攝像機(jī)姿勢的改進(jìn)很小:T-less(4個視圖)和YCBVideo(5個視圖)在1%以內(nèi),T-less(8個視圖)在3%以內(nèi)。這表明,即使對于只包含對稱對象的場景,我們的方法也可以恢復(fù)準(zhǔn)確的相機(jī)姿勢,就像在T-less數(shù)據(jù)集中一樣。
定性結(jié)果。我們在圖3中提供了恢復(fù)的6D對象姿勢的例子,其中我們顯示了候選對象和最終估計(jì)的場景。有關(guān)其他結(jié)果,包括故障模式的詳細(xì)討論,請參閱附錄。YCB-Video的結(jié)果可以在項(xiàng)目網(wǎng)頁6上看到。
計(jì)算成本。對于每個視圖有4個視圖和6個2D檢測的常見情況,我們的方法大約需要320ms來預(yù)測場景的狀態(tài)。該定時包括:用于估計(jì)所有候選的6D姿勢的190ms(階段1,粗略和細(xì)化網(wǎng)絡(luò)的1次迭代),用于對象候選關(guān)聯(lián)的40ms(階段2)和用于場景細(xì)化的90ms(階段3)。例如,可以通過利用視頻序列中的時間連續(xù)性來實(shí)現(xiàn)對實(shí)時性能的進(jìn)一步加速。
5結(jié)論
我們開發(fā)了一種名為CosyPose的方法,用于恢復(fù)由多個未校準(zhǔn)相機(jī)查看的多個已知對象的6D姿勢。我們的主要貢獻(xiàn)是將可學(xué)習(xí)的6D姿態(tài)估計(jì)與穩(wěn)健的多視角匹配和全局細(xì)化相結(jié)合,以重建單個一致的場景。我們的方法顯式地處理對象對稱性,不需要深度測量,對丟失和錯誤的對象假設(shè)具有很強(qiáng)的健壯性,并自動恢復(fù)攝像機(jī)姿勢和場景中的對象數(shù)量。這些結(jié)果向視覺驅(qū)動的機(jī)器人操作所需的健壯性和準(zhǔn)確性邁進(jìn)了一步,在具有移動攝像機(jī)的不受約束的場景中,并為將物體姿勢估計(jì)包括在主動視覺感知循環(huán)中打開了可能性。
總結(jié)
以上是生活随笔為你收集整理的CosyPose: Consistent multi-view multi-object 6D pose estimation的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: linux inter开发板,研扬UP
- 下一篇: uniapp上传图片踩过的坑