ECCV 2022 | 悉尼大学提出:绝对尺度感知,鲁棒,以及可泛化的自监督单目深度估计网络DynaDepth
原文鏈接:https://www.techbeat.net/article-info?id=3958
作者:張森
本文介紹我們中稿今年ECCV的一項工作:Towards Scale-Aware, Robust, and Generalizable Unsupervised Monocular Depth Estimation by Integrating IMU Motion Dynamics。
基于深度學習的自監督單目深度估計神經網絡近年已在主流數據集上取得了非常好的結果。但僅使用單目相機圖像無法獲得深度估計值的絕對尺度,從而限制了單目深度網絡在實際中的應用。本文提出一個新的結合慣性測量數據的單目視覺深度估計框架,通過在訓練階段結合IMU(慣性測量單元)數據,可訓練得到擁有絕對尺度感知能力的單目深度估計網絡,使得在測試階段針對給定的單目視頻能夠得到具有絕對尺度的深度估計值。并且,該方法相比于純視覺方法,還具有更高的魯棒性和泛化能力。
論文鏈接:
https://arxiv.org/abs/2207.04680
代碼鏈接:
https://github.com/SenZHANG-GitHub/ekf-imu-depth
?
一、研究背景
深度學習在三維幾何的各項任務中都取得了顯著的成果[1-3]。在深度估計領域,相比于需要大量人工標簽的有監督學習方法,基于單目圖像序列的自監督深度估計方法近年受到了學界的廣泛關注[4-5]。為了利用深度神經網絡對當前幀的深度以及前后幀之間的相對位姿進行同時建模和估計,我們可以通過多維幾何視覺得到前后幀之間像素位置的投影關系,并基于采樣得到由相鄰幀反向重建出的當前幀,將其與真實的當前幀進行比對得到自監督的學習信號,從而監督訓練上述神經網絡。
目前的研究通過采用更復雜的網絡與損失函數,遮擋與相對運動的異常點檢測,以及通過與更多學習任務(比如光流,運動物體分割)相結合等方式[5-11],在主流數據集(比如KITTI)上已取得了非常好的相對精度結果。
然而,當前基于圖像重投影的光度損失的單目深度學習網絡依然存在尺度不確定性的問題,從而限制了其在實際場景中的應用。這是因為在重投影的過程中,對神經網絡估計的相機位移與深度乘以任意常數(如下面公式所示),都會得到相同的投影結果,因此,神經網絡無法學習得到真實的位移與深度。
盡管有研究提出使用局部深度重投影作為額外損失,來保證尺度的一致性,但此類方法依然無法感知絕對尺度[12-14]。同時,基于重投影損失的純視覺學習方法容易受到光照強度變化和運動物體的影響,并且由于真實世界圖像的復雜性,在不同數據集間的泛化性也容易受到圖像分布遷移的影響。此外,網絡輸出結果的不確定度對于研發具有更為魯棒的系統而言非常重要。盡管已有研究提出對光度損失進行不確定度的建模,但當前自監督框架下依然難以衡量相機位姿估計量的不確定度。
為了解決以上問題,本文提出一個新的單目深度神經網絡框架DynaDepth。通過引入IMU運動學模型,DynaDepth可以在訓練過程中為深度估計網絡賦予絕對尺度感知的能力。并且,由于IMU作為獨立于圖像領域的數據,在訓練過程中令深度和位姿估計網絡滿足IMU運動學模型,可以進一步提高模型的泛化性。同時,相比于基于在訓練過程中引入雙目相機來提供絕對尺度的方法[15-16],因為IMU并不受圖像光照變化和特征缺失的影響,在視覺條件欠佳的場景,DynaDepth也具有更強的魯棒性。此外,本文通過EKF(擴展卡爾曼濾波器)來對IMU和神經網絡位姿估計進行融合,在EKF的框架下,我們也能進一步為相機位姿的估計值提供一個不確定度的度量。
二、我們的方法
我們首先計算IMU的預積分量,從而在訓練過程中避免對可預積分部分的重復計算。在實際訓練時,我們可由預積分量直接推導得到IMU原始數據所對應的相機位姿。
此處的一個技術難點是對相機坐標系下的速度和重力的估計,傳統的視覺慣導系統通常需要引入一個基于優化的預處理步驟來獲取速度及重力的初始值[17]。但是,這一初始化計算過程并不可導,難以整合入端到端的學習框架中。本文中則提出通過兩個額外的神經網絡來分別估計兩幀間的速度與重力初始值,并且對于重力施加額外的近似幅值的約束。
基于從IMU數據得到的相機位姿,我們相應的設計了兩個損失函數來對網絡提供帶有絕對尺度信息以及跨領域信息的自監督信號。首先我們同樣基于IMU對應位姿進行重投影得到光度損失:
此外,我們提出通過跨傳感器一致性的損失來對齊IMU以及基于視覺的神經網絡所估計出來的位姿。在具體實現上,我們通過計算其各自重投影圖像間的光度差異來作為此一致性損失。值得指出的是,通過此一致性損失,我們進一步能提高網絡對于如光照變化、動態物體等異常場景的魯棒性。我們允許兩個重投影圖像各自因為異常場景因素而和目標圖像有局部的不匹配,只要基于IMU位姿和網絡估計位姿所得到的重投影圖像能保持一致,我們所提出的跨傳感器一致性損失便不會對此進行懲罰,從而提高了對于異常場景的魯棒性。
最后,對于相機和IMU信息的融合,我們提出通過基于相機坐標系的EKF擴展卡爾曼濾波器來實現此目的。由于EKF本質上通過對IMU和視覺信息的不確定度進行加權,我們也可借此得到一個對于神經網絡估計出的相機位姿的不確定性度量。傳統的視覺慣導系統近年來主要采用基于優化的方案,這主要是因為EKF在處理長時數據時,其馬爾可夫假設難以滿足,并且需要存儲大量的協方差信息。然而,在自監督深度估計的訓練框架下,由于我們通常采用短時視頻片段作為基礎訓練單元,因此EKF的假設可認為近似滿足,并且能提供一個可導且運算量較低的融合方案。
我們總體的技術方案如上圖所示。考慮到DynaDepth中所有神經網絡均以視覺圖像作為輸入信息,我們推導了在相機坐標系下表達的EKF過程,從而降低了在跨傳感器融合過程中神經網絡學習的難度,具體技術細節詳見文章。
三、實驗
為了和已有方法的效果進行對比,我們選擇在多數方法報告了結果的主流數據集KITTI[18]上驗證DynaDepth的有效性。
我們的主實驗結果表明,在引入IMU的信息后,DynaDepth能夠學習得到近于完美的絕對尺度結果,并且在精度上也有所提升。我們進一步將在KITTI上訓練的模型在Make3D數據集[19]上進行測試,從而檢驗DynaDepth的泛化能力。
實驗結果表明,在跨數據集的情景下,DynaDepth依然取得了很好的絕對尺度感知結果。相比于其他方法,其深度估計精度也有一定的提升。值得一提的是,對比采用了雙目信息進行訓練的monodepth2方法,本文提出的采用了獨立于圖像領域的IMU信息的DynaDepth依然取得了更好的深度估計精度和泛化能力。
我們同時對網絡各個模塊,以及魯棒性和位姿不確定性進行了消融實驗分析。首先從表4我們看出,絕對尺度信息主要來自IMU重投影損失,而跨傳感器損失則對深度估計精度貢獻較大。結合EKF和速度重力的幅值信息則能進一步提升深度估計的精度。
為了對魯棒性進行研究,我們通過隨機調整圖像對比度以及隨機施加黑色遮擋來模擬光照變化(IC)以及運動物體(MO)。我們的實驗結果表明,DynaDepth在異常場景中相較于Monodepth2表現更好,并且EKF在異常場景中對深度估計精度的提升更為明顯。
本文中進一步對學習到的相機位姿估計的不確定性進行了分析。從圖2可以看出,隨著深度估計精度的提升,位姿估計的不確定性也隨之下降。并且,當使用更大的網絡模型,我們可以得到更低的不確定度。同時,因為KITTI中車輛主要是向前運動(axis-z),在表6中可看出,對于前向位姿,我們得到了較低的不確定度,而對于其他兩個平均運動幅度較小的方向,不確定度則變得很大。這可能是因為在這種情況下,網絡難以區分隨機噪聲和這兩個方向上的小幅度運動。
四、總結
本文通過引入IMU運動學信息,提出了一個新的具有絕對尺度感知能力、較好魯棒性和泛化性的單目深度估計框架DynaDepth。通過在KITTI和Make3D上和現有方法的對比以及大量的消融實驗,我們驗證了此方案的有效性。IMU和相機因其低成本、易獲取等特點,在各種人工智能系統中被廣泛采用。我們期望本文提出的基于IMU和相機融合的深度估計網絡框架,在實際中能發揮更大的價值,并且啟發更多將IMU信息引入基于深度學習的視覺框架中的研究,例如在光流估計,物體分割,和視頻理解等任務中引入獨立于視覺的額外信息和約束。此外,對于IMU數據本身,如何在端到端的學習框架中針對不同成本和應用場景的IMU的噪聲進行處理和內部統計量估計,也是一個值得繼續探索的研究方向。
參考文獻
[1] Fu, Huan, et al. “Deep ordinal regression network for monocular depth estimation.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
[2] Wang, Sen, et al. “Deepvo: Towards end-to-end visual odometry with deep recurrent convolutional neural networks.” 2017 IEEE international conference on robotics and automation (ICRA). IEEE, 2017.
[3] Zhang, Sen, Jing Zhang, and Dacheng Tao. “Information-Theoretic Odometry Learning.” International Journal of Computer Vision (IJCV), 2022.
[4] Zhou, Tinghui, et al. “Unsupervised learning of depth and ego-motion from video.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2017.
[5] Godard, Clément, et al. “Digging into self-supervised monocular depth estimation.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019.
[6] Ranjan, Anurag, et al. “Competitive collaboration: Joint unsupervised learning of depth, camera motion, optical flow and motion segmentation.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2019.
[7] Jung, Hyunyoung, Eunhyeok Park, and Sungjoo Yoo. “Fine-grained semantics-aware representation enhancement for self-supervised monocular depth estimation.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.
[8] Yin, Zhichao, and Jianping Shi. “Geonet: Unsupervised learning of dense depth, optical flow and camera pose.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.
[9] Guizilini, Vitor, et al. “3d packing for self-supervised monocular depth estimation.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.
[10] Johnston, Adrian, and Gustavo Carneiro. “Self-supervised monocular trained depth estimation using self-attention and discrete disparity volume.” Proceedings of the ieee/cvf conference on computer vision and pattern recognition. 2020.
[11] Zhou, Zhongkai, et al. “R-msfm: Recurrent multi-scale feature modulation for monocular depth estimating.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.
[12] Bian, Jiawang, et al. “Unsupervised scale-consistent depth and ego-motion learning from monocular video.” Advances in neural information processing systems 32 (2019).
[13] Zhan, Huangying, et al. “Visual odometry revisited: What should be learnt?.” 2020 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2020.
[14] Zhao, Wang, et al. “Towards better generalization: Joint depth-pose learning without posenet.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.
[15] Yang, Nan, et al. “Deep virtual stereo odometry: Leveraging deep depth prediction for monocular direct sparse odometry.” Proceedings of the European Conference on Computer Vision (ECCV). 2018.
[16] Zhang, Sen, Jing Zhang, and Dacheng Tao. “Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World.” IEEE International Conference on Robotics and Automation (ICRA), 2022.
[17] Qin, Tong, Peiliang Li, and Shaojie Shen. “Vins-mono: A robust and versatile monocular visual-inertial state estimator.” IEEE Transactions on Robotics 34.4 (2018): 1004-1020.
[18] Geiger, Andreas, et al. “Vision meets robotics: The kitti dataset.” The International Journal of Robotics Research 32.11 (2013): 1231-1237.
[19] Saxena, Ashutosh, Min Sun, and Andrew Y. Ng. “Make3d: Learning 3d scene structure from a single still image.” IEEE transactions on pattern analysis and machine intelligence 31.5 (2008): 824-840.
Illustration?by Violetta Barsuk?from icons8
?
-The End-
關于我“門”
▼
將門是一家以專注于發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門-TechBeat技術社區以及將門創投基金。
將門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投后服務,歡迎發送或者推薦項目給我“門”:
bp@thejiangmen.com
總結
以上是生活随笔為你收集整理的ECCV 2022 | 悉尼大学提出:绝对尺度感知,鲁棒,以及可泛化的自监督单目深度估计网络DynaDepth的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Java_画图软件
- 下一篇: Schema Compare 使用手册