300米远程深度估计:港科大重磅开源自动驾驶深度感知新技术,远超现有雷达|CVPR2020
原文鏈接:300 米遠程深度估計:港科大重磅開源自動駕駛新技術,遠超現有雷達|CVPR2020
本文原創首發自極市平臺公眾號,請授權后轉載。
論文標題:Depth Sensing Beyond LiDAR Range
arxiv鏈接:
https://arxiv.org/abs/2004.03048
project主頁:https://kai-46.github.io/DepthSensing/
slides:https://kai-46.github.io/DepthSensing/my_files/slides.pdf
video:https://youtu.be/QXI5JQZ2JE0
圖像中的場景距離大約兩三百米。本文算法可以得到一個上千萬像素的深度圖。
深度感知技術是自動駕駛技術的一個重要模塊,當前的解決方案主要分為主動式的激光雷達和被動式的立體相機兩種。這兩種方案的優缺點已被眾多科技媒體、學術文章等廣為討論,在此不做贅述。在這個工作中,我們嘗試解決“自動駕駛場景下數百米的遠程深度估計”這個尚未被大量探索的問題。
細看當前研究者常用的Kitti、Waymo等自動駕駛數據集,不難發現,它們的深度數據均由車載激光雷達采集,最大量程只有80米左右。80米左右的量程或許可以滿足低速無人駕駛的應用場景,但是對于無人駕駛卡車在高速公路行駛這類的場景顯得有點不足,原因在于,如果我們假設卡車車速是80 km/h,行駛80米的距離其實只需要3.6秒的時間,這對于無人駕駛技術的安全性構成了挑戰。誠然目前市面上的一些高端激光雷達聲稱能夠達到300米的有效測量距離,但其價格、功耗、遠處物體的點云很稀疏等問題均不可規避。另一方面,現有的立體相機方案由于相機焦距不夠大而看不清遠處物體,進而也不能達到遠程深度估計的要求。
作為計算機視覺研究者,我們決定從相機角度著手解決這個問題,而非改進激光雷達。首當其沖的一個問題是:為了看清遠處物體,長焦鏡頭不可或缺,但是這種增大立體相機焦距的方法是否能直接解決問題了呢?答案是否定的。經過分析可以發現,這里面的一個難點在于:立體相機的最大baseline受限于車輛的寬度(通常在2米左右)。對于300米遠的3D點而言,2米的baseline可謂是超級小,小到這個3D點到左、右相機中心的兩條光線的夾角(triangulation angle)只有0.382度。如下圖所示,極小的triangulation angle帶來的后果是深度估計的精度對于相機姿態中的微小變化異常敏感:如果姿態中有0.1度的誤差,那么估計的深度值的相對誤差就達到了不可接受的26.2%左右,這意味著在300米深度處會產生大約78.6米的絕對誤差。
在無人駕駛車輛行駛過程中,相機姿態當中的微小變化幾乎是難以避免的。對相機姿態要求的這種高精度也已遠超IMU、Gimbal等硬件所能達到的精度。那么使用Structure-from-Motion (以下簡稱SfM)這種算法是否可以直接從圖片中恢復高精度相機姿態呢?很不幸的是,答案也是否定的,這是因為SfM算法所求解的優化問題在遠程深度估計問題下存在ambiguity,簡單來說,就是解不是唯一的。早年的文章把這種現象成為bas-relief ambiguity,如下圖的仿真實驗所示,SfM恢復的相機姿態相對于真實值有0.207度的誤差,同時恢復的3D點的位置(紅色)嚴重偏離了它們真實的位置(藍色)。
為此,我們提出了一個如下圖所示的由三個長焦相機構成的新相機系統(兩個放在車頭,一個放在車尾),以及配套的深度估計算法。我們的解決方案繞過了對高精度相機姿態的要求,只需要知道三個相機的焦距,以及相機之間的距離。算法以三個相機同一時刻捕捉到的圖片作為輸入,輸出left相機圖片對應的深度圖。整個系統流程圖如下圖所示,簡單來說,我們的算法流程是先對左右相機的圖片做uncalibrated pseudo-rectification,這一個過程不依賴于相機姿態,只需要圖片之間的sparse feature matches即可實現;然后用標準的stereo matching算法去估計disparity;分析表明這個估計的disparity相對于真實的disparity存在一個未知的全局偏移,算法的最后一步就是利用left相機和back相機之間的近大遠小現象來估計這個未知的全局偏移,并將修正后的disparity轉化為深度。具體點來說,第一步中的uncalibrated pseudo-rectification基于的原理是當相機焦距很大時,相機的透視投影效應會變弱,退化成弱正交投影,我們的分析顯示在這種情形下,我們可以直接通過圖片之間的sparse feature matches求接出兩個仿射變換來達到對圖片的pseudo-rectification;這種pseudo-rectification具有不依賴相機姿態的優點,但是會帶來第二步估計的disparity中存在未知的全局偏移這一后果;為了去除這個全局偏移,本質上我們需要知道至少一個3D點的絕對深度值(同時這個3D點在第二步估計的disparity也要合理),在我們的方法中,這一目標是通過利用前后相機之間的近大遠小現象實現的,即:兩個具有同一深度的3D點,它們投影到后面相機中的像素之間距離要比投影到前面相機中的像素之間距離來得小,并且從距離之間的比例可以反推出3D點的深度。(具體的算法細節可以參考我們的論文)
我們在仿真數據集和采集的現實數據集做了驗證了我們的算法。對于仿真數據集上,我們限制相機系統的baseline/depth ratio在2/300左右(對應車寬2米,物體在300米這樣的現實設定),同時對相機姿態做隨機的小擾動。結果顯示,我們的算法估計出來的深度能夠達到3%的相對誤差,遠超其他算法 (如下圖1所示)。由于這個問題的現實數據采集難度很高,我們做了資源允許情況下的最大力度驗證。我們把一個配備了長焦鏡頭和三腳架的相機依次放到相機系統示意圖中的三個位置,并且用激光測距儀測量了left相機中心點的深度作為真實值。實驗結果顯示,我們的方法得到的深度(300.8米)跟激光測距儀測量的值(320米)吻合得很好(如下圖2所示),并且我們的方法輸出的是深度圖,而非激光測距儀給出的單點深度。
綜上所述,在這個工作中,我們對于無人駕駛場景下的遠距離(300米左右)深度估計做了一些探索,并提出了一個基于相機的解決方案。因為我們的方法基于相機,所以具有成本小、功耗低的特點(note:我們驗證原型系統時使用的易用型消費者相機Nikon P1000成本并不低,實際應用中使用工業相機和鏡頭來搭建這個系統的話可以大幅降低成本,同時相機尺寸也可以縮小很多)。匹配我們提出的深度估計算法,整個系統的完整參數(包括完整的相機內參和外參)并不需要提前全部calibrate好,同時該套系統對于車輛系統過程中的相機姿態顫動更加魯棒。由于資源的限制,我們并未能在真實的自動駕駛場景上驗證我們提出的原型系統,是一個遺憾;無人駕駛場景下的遠距離深度估計問題也欠缺公開的大規模數據集來供深度學習研究者使用。這些都是未來可以研究探索的方向。
作者介紹
張凱,Cornell二年級博士生,博士導師Noah Snavely,本科畢業于清華大學,主要研究領域:3D vision。
關注極市平臺公眾號(ID:extrememart),獲取計算機視覺前沿資訊/技術干貨/招聘面經等
總結
以上是生活随笔為你收集整理的300米远程深度估计:港科大重磅开源自动驾驶深度感知新技术,远超现有雷达|CVPR2020的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 超越 MobileNet,谷歌提出 Mo
- 下一篇: ECCV2020 收录论文汇总(持续更新