基于简化点云地图的语义边缘对齐的单目定位方法
標題:Compact 3D Map-Based Monocular Localization Using Semantic? Edge Alignment
作者:Kejie Qiu, Shenzhou Chen, Jiahui Zhang, Rui Huang, Le Cui, Siyu Zhu, and Ping Tan
排版:點云PCL
來源:? arxiv 2021?
本文僅做學術分享,如有侵權,請聯系刪除。歡迎各位加入免費知識星球,獲取PDF論文,歡迎轉發朋友圈。內容如有錯誤歡迎評論留言,未經允許請勿轉載!
公眾號致力于分享點云處理,SLAM,三維視覺,高精地圖相關的文章與技術,歡迎各位加入我們,一起每交流一起進步,有興趣的可聯系微信:920177957。本文來自點云PCL博主的分享,未經作者允許請勿轉載,歡迎各位同學積極分享和交流。
摘要
精確的定位是導航、機器人、自動駕駛和增強現實(AR)等各種應用的基礎。與增量式定位不同的是,全局定位不存在由誤差積累引起的漂移,這在許多應用場景中都是需要的。除了在戶外使用GPS外,3D地圖也被廣泛用作全局定位的替代方案。本文提出了一種基于低成本單目相機和慣性測量單元(IMU)的簡化型三維地圖全局定位系統。該地圖由兩類簡化元素和多個語義標簽組成,能很好地適應城市等各種環境。同時,利用語義邊緣特征進行關鍵圖像的地圖配準,對環境中的遮擋和長期外觀變化具有很強的魯棒性。為了進一步提高定位性能,將關鍵語義邊緣對齊問題描述為一個基于獨立VIO(VisualInertial Odometry)模塊預測初始姿態的優化問題。定位系統采用模塊化設計,實時實現。通過實際實驗結果與地面真實情況進行比較,評估了定位精度,并驗證了長期定位性能。
介紹
視覺定位是對給定圖像的位置和方向(即攝像機姿態)進行估計的問題。這個問題在自主導航中起著關鍵作用,例如,對于自動駕駛汽車[9]和同時定位和地圖(SLAM)[30]。在許多三維計算機視覺算法中也會遇到這種情況,如運動結構(SfM)[36]、攝像機標定[9]和增強現實[25]、[29]
用于視覺定位的最新方法是基于結構的,即它們顯式或隱式地使用三維模型來表示場景。顯式方法通常采用通過SfM[20]、[25]、[33]、[40]、[46]構造的稀疏3D點云,允許它們將每個3D點與一個或多個局部圖像描述子相關聯。對于給定的圖像,通過比較從圖像中提取的局部特征的描述子和三維點描述子,建立一組二維-三維的對應關系。使用這些匹配,然后他們通過循環RANSAC[8]中應用n點姿勢解算器[10]、[18]、[19]來估計相機姿勢。相反,隱式方法[4]、[7]、[28]、[39]放棄了顯式描述子匹配。相反,他們通過學習從圖像塊到三維場景點坐標的映射,直接學習2D-3D匹配函數。再次,將得到的2D-3D對應用于基于RANSAC的姿態估計。與顯式方法相比,隱式方法可以獲得更高的姿態精度[4],[7]。然而,它們目前還不能擴展到更大的戶外場景[4],[37]。
大多數明確的基于結構的定位方法都集中在單目(單幅圖像)情況下,例如智能手機和平板電腦上的增強現實[3]、[17]、[25],通過制定有效匹配[21]、[33]或縮放到更大或更復雜場景的策略[22]、[35]、[40]、[46]。然而,許多機器人應用,特別是自動駕駛汽車[9],[38],受益于使用多攝像機系統,覆蓋整個360°視野(FoV)的機器人周圍。研究還表明,覆蓋更大視場的攝像機可以更精確地定位[2],并且多攝像機系統可以顯著提高具有挑戰性條件下的定位性能[34]。
文章貢獻
現有的多攝像機定位研究主要集中在立體SLAM[13]、[23]、[31]、攝像機標定[12]、[13]和攝像機姿態估計[6]、[19]、[41]、[43]。后兩種方法將多攝像機系統建模為廣義攝像機[32],即具有多個投影中心的攝像機,以導出(最小)姿態估計解算器。然而,多攝像機定位的一個核心方面很少受到關注:使用多個圖像會導致在特征匹配過程中需要考慮更多的特征,從而顯著延長運行時間。
本文旨在通過研究多攝像機系統中高效的2D-3D匹配來填補這一空白。為此,我們做出了以下主要貢獻:
1)提出了一種多攝像機系統的優先描述符匹配方案。我們的策略基于主動搜索[33],這是一種針對單目相機開發的高效優先級方案。我們證明了主動搜索的一種快速變體,它導致了單個圖像的不穩定姿態估計,非常適合于多攝像機系統。
2) 我們將優先匹配與攝像機姿態估計相結合。與標準方案不同,標準方案在找到固定數量的匹配后終止搜索,我們的方法在找到足夠多的幾何一致匹配后立即終止。
3) 受幾何異常值濾波方法的啟發[40],[46],我們開發了一個有效的幾何驗證步驟,可用于整合潛在的姿態先驗。這使得我們可以避免比較描述幾何上不可信的匹配,這可以使我們的搜索更加有效和健壯。后兩種貢獻不僅限于多攝像機情況,而且也適用于單目場景。
4) 我們展示了如何將我們的方法與VIO方法相結合,使我們的系統能夠在汽車上實時提供準確、無漂移的姿態估計
在城市環境中使用建議的精簡地圖格式進行地圖壓縮。使用兩種類型的線段(線段和線框)保留關鍵地標的同時,顯著減小了地圖的大小。每種類型都可以標記為多個語義類別。
主要內容
提出的模塊化定位系統包括語義分割模塊、VIO模塊、地標選擇模塊、特征提取模塊和語義邊緣對齊模塊。本文將重點介紹最后三個模塊。為了系統的完整性,還簡要介紹了簡化地圖的生成過程。以城市環境定位為例,定位流程如圖2所示。定位系統由全球定位系統(GPS)或其他視覺重定位方法等全局參考進行初始化。語義分割模塊首先對采集到的圖像進行語義標注,在不喪失通用性的前提下,將圖像分割為兩類語義區域(道路和非道路)。根據分割結果,在對圖像進行進一步處理之前,先對圖像中潛在的動態區域進行掩蔽,然后利用邊緣檢測算法從捕獲的圖像中提取語義邊緣特征,并將分割出的語義邊緣圖像轉化為相應的距離變換進行稠密處理邊緣對齊。同時,根據最后一個攝像機姿態和VIO模塊的里程計輸入預測當前攝像機姿態。根據預測的攝像機姿態,從預先構建的簡化地圖中選擇相應的地標進行特征對齊。最后,在一個優化框架內導出了全局的相機姿態。
提出了基于地圖的定位系統的總體方案。整個定位系統由虛線框中顯示的全局引用初始化,所有實線框表示實時運行的模塊。在特征提取模塊中,根據分割結果從輸入圖像中提取語義邊緣特征,生成以距離變換表示的語義能量圖(黑:低能;白:高能)。在地標選擇模塊中,根據獨立的VIO模塊提供的先驗攝像機姿態選擇用于特征對齊的地標。在邊緣對齊模塊中,對優化前后的標志點(色點)進行了重投影。
地圖定義和生成
我們定義了兩種類型的地標,即線段和線框,每種類型都可以附加多個語義標簽。語義線段由一個語義標簽和兩個三維點表示,語義線框由一個語義標簽和兩個以上的三維點表示(矩形線框為四點):
在地圖生成方面,可以從標準地圖格式轉換成簡化的地標地圖,也可以從使用各種傳感器的多種地圖算法的結果生成簡化的地標。例如,如圖3(a)所示,基于由稠密視覺映射構造的HD地圖,可以使用分割算法在逆透視映射(IPM)圖像中有效地標記檢測到的道路。首先利用專用神經網絡在圖像中檢測出非道路元素,然后利用映射結果得到的相應深度信息投影到全局坐標上,如圖3(b)所示。在實際應用中,這兩種檢測結果都可以通過人工標注的方式進行細化,提高精度,并且不保留被植被遮擋的地標。圖4顯示就是顯示的城市環境的簡化地圖。
圖3 在IPM(bird's eye view)圖像中檢測路標,而在普通圖像視圖中檢測非路標。
圖4 城市環境的簡化的地標地圖
實驗
采集設備
用于實驗的生成簡化地圖是由安裝在數據采集車上的高端設備(包括五個工業攝像機、一個高精度捷聯慣導系統和一個車輪里程計)構建的密集點云地圖生成的。另一方面,用于定位的傳感器組包括MYNT眼睛照相機的左單目相機,其以20hz捕獲640×400個圖像,并且內部IMU以200Hz運行,下圖所示
對攝像機的內參數和攝像機與IMU之間的外參數進行了預先標定。定位系統采用基于超點[10]的視覺重定位方法進行初始化。VINS Mono[23]用于單目VIO實現。使用DeepLabv3+[5]和exception[24]模型對城市環境進行語義分割,得到道路和非道路區域進行進一步的特征提取。整個定位系統在配備i7-8700kcpu和GeForce gtx1080ti的臺式機上實時運行,詳細的定時統計如表一所示。
定位評估
為了更好的呈現邊緣地標對齊結果,我們將地標重新投影到合成距離變換上,該距離變換將所有語義層結合起來進行可視化。通常情況下,優化后的重投影標志(色點)位于低能量區域(距離變換的黑色區域)。也就是說,通過重投影圖像可以直觀地判斷定位結果。
收集了三次總長620m的試驗數據,并與地面實況進行了比較。用于定位的簡化地圖統計如表二所示, trial 1的地圖具有相對較大的地標密度。重要的是,使用簡化的地圖表示法,地圖尺寸顯著減小(壓縮因子=原始地圖尺寸=緊湊地圖尺寸),這有利于機載系統和大規模部署。
用RMSE計算的詳細數值結果如表3所示。由于使用了語義邊緣代替了語義對象,該方法的位置精度在0:29m以內,旋轉精度在0.52度以內?, 滿足了自動駕駛對車道水平精度的要求。此外,如表4所示,我們將該算法與其他基于地圖的算法進行了比較,結果表明該算法在相關工作中達到了最佳的性能水平。
總結
本文提出了一種基于自定義三維簡化地圖的單目視覺慣性測量全局定位系統。地圖由兩種類型的地標組成:線段和線框,每種類型都有多個語義標簽。以城市環境為例,說明了方法論和評價方法。此外,由于定義的地圖格式的通用性,它可以很容易地適應室內環境或任何人造環境使用特定的語義標簽。此外,用于特征對齊的語義邊緣特征對透視和光照變化具有很強的魯棒性,在復雜外觀變化的情況下能夠實現長期定位。
更多詳細內容和加入知識星球獲取原文
資源
三維點云論文及相關應用分享
【點云論文速讀】基于激光雷達的里程計及3D點云地圖中的定位方法
3D目標檢測:MV3D-Net
三維點云分割綜述(上)
3D-MiniNet: 從點云中學習2D表示以實現快速有效的3D LIDAR語義分割(2020)
win下使用QT添加VTK插件實現點云可視化GUI
JSNet:3D點云的聯合實例和語義分割
大場景三維點云的語義分割綜述
PCL中outofcore模塊---基于核外八叉樹的大規模點云的顯示
基于局部凹凸性進行目標分割
基于三維卷積神經網絡的點云標記
點云的超體素(SuperVoxel)
基于超點圖的大規模點云分割
更多文章可查看:點云學習歷史文章大匯總
SLAM及AR相關分享
【開源方案共享】ORB-SLAM3開源啦!
【論文速讀】AVP-SLAM:自動泊車系統中的語義SLAM
【點云論文速讀】StructSLAM:結構化線特征SLAM
SLAM和AR綜述
常用的3D深度相機
AR設備單目視覺慣導SLAM算法綜述與評價
SLAM綜述(4)激光與視覺融合SLAM
Kimera實時重建的語義SLAM系統
SLAM綜述(3)-視覺與慣導,視覺與深度學習SLAM
易擴展的SLAM框架-OpenVSLAM
高翔:非結構化道路激光SLAM中的挑戰
SLAM綜述之Lidar SLAM
基于魚眼相機的SLAM方法介紹
往期線上分享錄播匯總
第一期B站錄播之三維模型檢索技術
第二期B站錄播之深度學習在3D場景中的應用
第三期B站錄播之CMake進階學習
第四期B站錄播之點云物體及六自由度姿態估計
第五期B站錄播之點云深度學習語義分割拓展
第六期B站錄播之Pointnetlk解讀
[線上分享錄播]點云配準概述及其在激光SLAM中的應用
[線上分享錄播]cloudcompare插件開發
[線上分享錄播]基于點云數據的?Mesh重建與處理
[線上分享錄播]機器人力反饋遙操作技術及機器人視覺分享
[線上分享錄播]地面點云配準與機載點云航帶平差
如果你對本文感興趣,請后臺發送“知識星球”獲取二維碼,務必按照“姓名+學校/公司+研究方向”備注加入免費知識星球,免費下載pdf文檔,和更多熱愛分享的小伙伴一起交流吧!
以上內容如有錯誤請留言評論,歡迎指正交流。如有侵權,請聯系刪除
掃描二維碼
? ? ? ? ? ? ? ? ? ?關注我們
讓我們一起分享一起學習吧!期待有想法,樂于分享的小伙伴加入免費星球注入愛分享的新鮮活力。分享的主題包含但不限于三維視覺,點云,高精地圖,自動駕駛,以及機器人等相關的領域。
分享及合作方式:微信“920177957”(需要按要求備注) 聯系郵箱:dianyunpcl@163.com,歡迎企業來聯系公眾號展開合作。
點一下“在看”你會更好看耶
總結
以上是生活随笔為你收集整理的基于简化点云地图的语义边缘对齐的单目定位方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【系列文章】面向自动驾驶的三维点云处理与
- 下一篇: 自动驾驶中高效的激光雷达里程计