传统的6d位姿估计fangfa1_你的厨房被水淹了!别担心,这只是3D深度估计做出的特效...
選自arXiv
作者:羅璇、Jia-Bin Huang等
機(jī)器之心編譯
參與:魔王、張倩
還記得那個用論文外觀判斷論文質(zhì)量的研究嗎?在那份研究中,身為頂會領(lǐng)域主席的作者 Jia-Bin Huang 被自己開發(fā)的系統(tǒng)拒了稿,引來了大批社區(qū)成員的圍觀。最近,他和合作者提出了一項新的計算機(jī)視覺方法,可以讓廚房「水漫金山」,讓天空下起「彩球雨」……
??
?
不止如此,想要貓主子不嫌棄自己拍的丑丑視頻,這個方法也能拯救你!
這項研究由來自華盛頓大學(xué)、弗吉尼亞理工學(xué)院和 Facebook 的研究者合作完成。
其中第一作者羅璇現(xiàn)為華盛頓大學(xué)現(xiàn)實實驗室博士,她本科畢業(yè)于上海交通大學(xué),導(dǎo)師為盧宏濤教授,研究方向為立體匹配,曾在新加坡國立大學(xué)跟隨顏水成鉆研深度學(xué)習(xí)。
第二作者 Jia-Bin Huang 為弗吉尼亞理工學(xué)院助理教授,研究方向為計算機(jī)視覺、計算機(jī)圖形學(xué)和機(jī)器學(xué)習(xí)。曾擔(dān)任 WACV 2018、CVPR 2019、ICCV 2019、BMVC 2019 和 BMVC 2020 會議的領(lǐng)域主席。
這項研究主要探究了如何生成準(zhǔn)確度和幾何一致性更高的視頻重建結(jié)果,目前該論文已被計算機(jī)圖形學(xué)頂級會議 SIGGRAPH 2020 接收,代碼也將在未來開源。
論文地址:https://arxiv.org/pdf/2004.15021.pdf
項目網(wǎng)站:https://roxanneluo.github.io/Consistent-Video-Depth-Estimation/
用手機(jī)拍攝的視頻可以做 3D 重建嗎?
基于圖像序列進(jìn)行 3D 場景重建在計算機(jī)視覺社區(qū)中已有幾十年的研究歷史。毋庸置疑,最簡單的 3D 重建捕捉方式就是利用智能手機(jī)手持拍攝,因為這類相機(jī)很常見,還可以快速覆蓋很大的空間。如果可以利用手機(jī)拍攝的視頻實現(xiàn)非常密集、準(zhǔn)確的重建,這類技術(shù)將變得非常有用。但要做到這一點困難重重。
除了重建系統(tǒng)都要處理的典型問題,如紋理單一區(qū)域、重復(fù)圖案和遮擋,基于手機(jī)拍攝的視頻實現(xiàn)重建還面臨著來自視頻本身的額外挑戰(zhàn),如較高的噪聲水平、抖動和動態(tài)模糊、卷簾快門變形,以及移動對象(如人)的出現(xiàn)。
出于這些原因,現(xiàn)有的方法通常會遇到很多問題,如深度圖中有缺失區(qū)域(見下圖 b),幾何和閃爍深度不一致(見下圖 c)。
如何解決?
這篇論文提出了一種新的 3D 重建算法,可以重建單目視頻中所有像素的密集、幾何一致性深度。他們利用傳統(tǒng)的 structure-from-motion(SfM)方法來重建像素的幾何約束。
與傳統(tǒng)重建方法使用特殊先驗的做法不同,該研究使用的是基于學(xué)習(xí)的先驗,即為單圖像深度估計訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)。在測試時,他們微調(diào)了這個網(wǎng)絡(luò),來滿足特定輸入視頻的幾何約束,同時保留其為視頻中受約束較少的部分合成合理深度細(xì)節(jié)的能力。
定量驗證結(jié)果表明,與之前的單目重建方法相比,該方法可以達(dá)到更高的準(zhǔn)確度及幾何一致性。從視覺上看,本文提出的方法也更加穩(wěn)定。該方法可以處理具有中等程度晃動的手持拍攝視頻,可以應(yīng)用到場景重建以及基于視頻的高級視覺效果。
但該方法的局限在于算力消耗太大,因此暫時無法用在實時的 AR 場景中。不過,論文作者也表示,會將速度的提升作為下一步的研究目標(biāo)。
方法
圖 2:方法概覽。
如上圖 2 所示,該方法以單目視頻作為輸入,目的是估計相機(jī)位姿以及每個視頻幀的深度和幾何一致性深度圖。「幾何一致性」不僅意味著深度圖不會隨著時間的推移而閃爍(flicker),還意味著所有的深度圖都是彼此一致的。也就是說,我們可以利用像素深度和相機(jī)位姿在幀與幀之間準(zhǔn)確地投影這些像素。例如,一個靜態(tài)點的所有觀察結(jié)果都應(yīng)該映射到世界坐標(biāo)系中一個單獨的普通 3D 點上,且沒有漂移(drift)。
隨意捕獲的輸入視頻為深度重建增加了一些挑戰(zhàn)。由于它們大多是手持拍攝的,相機(jī)也沒有經(jīng)過標(biāo)定,因此經(jīng)常出現(xiàn)動態(tài)模糊、卷簾快門變形等問題。簡陋的光照條件也會造成額外的噪聲及模糊。而且,這些視頻通常包含動態(tài)移動的對象(如人或動物),而很多重建系統(tǒng)是專為靜態(tài)場景設(shè)計的,這就形成了一個大的沖突。
在有問題的場景部分,傳統(tǒng)的重建方法通常會生成「孔洞」(如果強(qiáng)制返回結(jié)果,會估計出噪聲非常大的深度)。但在這些方法對返回結(jié)果比較有信心的部分,它們通常會返回非常準(zhǔn)確且一致的結(jié)果,因為它們嚴(yán)重依賴幾何約束。
近期基于學(xué)習(xí)的方法彌補(bǔ)了這些缺陷,它們利用一種數(shù)據(jù)驅(qū)動的強(qiáng)大先驗來預(yù)測輸入圖像的合理深度。然而,對每一幀單獨應(yīng)用這些方法會導(dǎo)致幾何不一致和短暫的閃爍。
本文作者提出的方法結(jié)合了以上兩種方法的優(yōu)點。研究者利用了幾種現(xiàn)成的單圖像深度估計網(wǎng)絡(luò),這些經(jīng)過訓(xùn)練的網(wǎng)絡(luò)可以合成一般彩色圖像的合理深度。他們利用從視頻中借助傳統(tǒng)重建方法提取的幾何約束來微調(diào)網(wǎng)絡(luò)。因此,該網(wǎng)絡(luò)學(xué)會在特定視頻上生成具有幾何一致性的深度。
該方法包括以下兩個步驟:預(yù)處理和測試時訓(xùn)練。
預(yù)處理
預(yù)處理是從視頻幀中提取幾何約束的基礎(chǔ)。
該研究首先使用開源軟件 COLMAP 執(zhí)行傳統(tǒng)的 SfM 重建流程。
為了改善對動態(tài)運動視頻的姿勢估計,研究者使用 Mask R-CNN 來獲取人物分割結(jié)果,并移除這些區(qū)域以獲得更可靠的關(guān)鍵點提取和匹配結(jié)果,因為視頻中的動態(tài)運動主要來自于人物。這一步可以提供準(zhǔn)確的內(nèi)部和外部相機(jī)參數(shù),以及稀疏點云重建。
研究者還利用光流估計了視頻幀對之間的稠密對應(yīng)關(guān)系。相機(jī)標(biāo)定(camera calibration)和稠密對應(yīng)共同構(gòu)成了幾何損失。
測試時訓(xùn)練
在這一階段,研究者微調(diào)預(yù)訓(xùn)練深度估計網(wǎng)絡(luò),使其生成對特定輸入視頻更具幾何一致性的深度。
在每次迭代中,該方法使用當(dāng)前的網(wǎng)絡(luò)參數(shù)采樣一對視頻幀并估計其深度圖。然后對比稠密一致性和利用當(dāng)前深度估計結(jié)果得到的重投影,從而驗證深度圖是否具備幾何一致性。
最后,研究者評估了兩種幾何損失:空間損失和視差損失,并將誤差進(jìn)行反向傳播,以更新網(wǎng)絡(luò)權(quán)重(權(quán)重對所有幀共享)。
用這種方式迭代地采樣很多對視頻幀,損失得到降低,網(wǎng)絡(luò)學(xué)會估計具備幾何一致性的深度,同時能夠在約束較少的部分提供合理的正則化。
該方法得到的改進(jìn)通常很大,最終深度圖具備幾何一致性,與整個視頻的時序一致,且能夠準(zhǔn)確勾勒出清晰的遮蔽邊界,即使是對于運動物體也是如此。有了計算得到的深度之后,研究者就可以為遮擋效應(yīng)(occlusion effect)提供合適的深度邊界,讓真實場景的幾何與虛擬事物進(jìn)行交互。
該方法效果如何?
與其他方法的對比結(jié)果
研究者對比了當(dāng)前最優(yōu)的深度估計算法,這些算法分為三個類別:
傳統(tǒng)的多視角立體視覺系統(tǒng):COLMAP [Schonberger and Frahm 2016];
單幅圖像深度估計:Mannequin Challenge [Li et al. 2019] 和 MiDaS-v2 [Ranftl et al. 2019];
基于視頻的深度估計:WSVD [Wang et al. 2019a](兩幀)和 NeuralRGBD [Liu et al. 2019](多幀)。
量化對比結(jié)果和視覺對比結(jié)果見下圖:
圖 4:該研究提出的方法與 SOTA 方法的量化對比結(jié)果。
圖 5:與 SOTA 方法的視覺對比結(jié)果。
該研究提出的方法可以從手機(jī)攝像頭隨意拍攝的視頻中生成具備幾何一致性且沒有顫動的深度估計結(jié)果。
控制變量研究
表 2:控制變量研究。該量化評估結(jié)果表明該方法的設(shè)計重要性。
圖 6:該方法的設(shè)計對輸出結(jié)果的貢獻(xiàn)。
圖 7:使用長期時間約束和視差損失的效果分析。
在公開基準(zhǔn)上的量化結(jié)果對比
表 3:在 ScanNet 數(shù)據(jù)集上的量化對比結(jié)果。
表 4:在 TUM-RGBD 數(shù)據(jù)集上的量化對比結(jié)果。
表 5:在 KITTI 基準(zhǔn)數(shù)據(jù)集上的量化對比結(jié)果。
方法局限性
那么該方法有沒有局限性呢?
作者在論文中提到了該方法的四項局限之處,分別是位姿、動態(tài)運動、光流和速度。
位姿
該方法目前依賴 COLMAP,來基于單目視頻估計相機(jī)位姿。而在難度較大的場景中,如相機(jī)平移有限及動態(tài)模糊的情況下,COLMAP 可能無法生成靠譜的稀疏重建結(jié)果和相機(jī)位姿估計。
較大的位姿誤差也會對該方法的輸出結(jié)果造成極大的負(fù)面影響,因此這限制了該方法在此類視頻中的應(yīng)用。
將基于學(xué)習(xí)的位姿估計和該研究提出的方法結(jié)合起來,或許是一個不錯的研究方向。
動態(tài)運動
該方法支持包含溫和運動的視頻,但如果運動較為激烈則該方法會出現(xiàn)問題。
光流
該方法依賴 FlowNet2 來構(gòu)建幾何約束。使用前后向傳播一致性檢查并過濾掉不可靠的光流,但這也可能出現(xiàn)錯誤。這時該方法無法輸出正確的深度。研究者嘗試使用稀疏光流,但效果并不好。
速度
該方法利用視頻中所有幀提取幾何約束,因此不支持在線處理。例如,對于一個包含 244 幀、708 個采樣光流對的視頻來說,該方法的測試時訓(xùn)練步耗時約 40 分鐘。
總結(jié)
以上是生活随笔為你收集整理的传统的6d位姿估计fangfa1_你的厨房被水淹了!别担心,这只是3D深度估计做出的特效...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 电脑蓝屏了怎么办修复电脑蓝屏文件如何恢复
- 下一篇: python中单下划线_foo与双下划线