最新综述:自动驾驶中的多模态三维目标检测
?PaperWeekly 原創 ·?作者?|?張一帆
學校?|?華南理工大學本科生
研究方向?|?CV,Causality
Abstract
在過去幾年,自動駕駛取得了蓬勃的發展,但是由于駕駛環境的復雜多變,實現完全自動依然是一個非常艱巨的任務。自動駕駛汽車往往配備了一系列復雜的傳感器來進行準確、穩健的環境感知。這大量的類型不同的傳感器如何互補,融合來促進感知依然是一個有待研究的問題。
本文致力于回顧最近的基于融合的 3D 檢測深度學習模型,這些模型有一個共同的特點:多個傳感器數據源,比如攝像機和激光雷達。本文首先介紹了各種常見傳感器的背景和通用數據表示,以及針對每種傳感器數據開發的目標檢測網絡。然后,本文討論了一些用于多模態 3D 目標檢測的流行數據集,特別關注數據集中的傳感器數據。
接下來作者對近幾年的多模態 3D 目標檢測網絡從三個方面進行了深入的調研:融合定位、融合數據表示和融合粒度。最后作者討論了開放式挑戰并指出了可能的解決方案。
論文標題:
Multi-Modal 3D Object Detection in Autonomous Driving: a Survey
論文作者:
Yingjie Wang, Qiuyu Mao, Hanqi Zhu, Yu Zhang, Jianmin Ji, Yanyong Zhang
論文鏈接:
https://arxiv.org/abs/2106.12735
Introduction
自動駕駛的普及有很多好處,但是由于現實場景中的感知性能還不夠好,現階段依然很難在城市或者其他復雜場景下部署。一個自動駕駛汽車要完成的感知任務是非常多的,比如定位,檢測,對其他車/人移動的估計,對場景的理解(紅綠燈),如下圖所示,需要大量的傳感器來完成這些功能。比如攝像機,LiDARs(光探測和測距傳感器),Radar(無線電探測),GPS,IMUs(慣性測量裝置)等。
在這大量的功能中,有三個功能最為重要:1)對環境的準確描述;2)在各種不同的惡劣環境中可以穩健運行;3)實時性。為了滿足上述要求,感知子系統同時執行多個重要任務,如目標檢測、跟蹤、同步局部化和映射(SLAM)等。
2.1 3D Object Detection through Single Sensor Modality
物體檢測即檢測物體的位置與類別,2D 目標檢測已經發展的很成熟了,但是 2D 并不能給自動駕駛提供足夠的信息,只能標注一個框和類別的置信度。在 3D 物體檢測任務中,需要更多的輸出參數來指定物體周圍的邊界框。
如下圖所示,我們需要預測物體的中心三維坐標 、長度、寬度、高度和偏轉角度 ,從而繪制出紅色的三維邊界框。顯然,由于缺乏真實世界坐標系統中的物體位置,二維物體檢測不能滿足自主駕駛環境感知的要求。本文主要研究自動駕駛的三維目標檢測任務,根據傳感器的使用類型,可以進一步分為以下幾類。
2.1.1?3D Object Detection Using Cameras
雖然 camera 只能提供 2D 圖像,但是很多研究工作直接用 2D 那套方法來預測三維信息,近期的研究表明基于圖像的三維目標檢測方法也可以在低成本下獲得滿意的性能。但是顯然單個 image 是不可能提供可靠的空間信息的,而且單個攝像機很可能出現高遮擋,計算成本高等問題。此外,如圖 4 所示,基于攝像頭的感知子系統在不利條件下提供的 image 質量很差,如光線差或大霧天氣,這限制了它們的全天候能力。
2.1.2 3D Object Detection Using LiDARs
更流行的方法是使用 ?LiDARs 提供的點云數據,不像圖像,點云提供了豐富的三維空間信息。激光雷達的優勢還在于其強大的測距能力和穿透能力,可以提供高質量的空間信息,而不存在目標遮擋問題。此外,激光雷達還能抵抗不利的照明條件。在激光雷達的幫助下,自動駕駛汽車可以看得更遠、更清楚。
目前,基于 LiDARs 的方法比基于相機的方法獲得了更好的檢測精度和更高的查全率。比如在? KITTI 3D 數據集上,目前的 sota MonoFlex 如果輸入 image 只能得到 mAP,但是如果輸入點云數據能得到超過 80 的 mAP。
目前 LiDARs 還沒有被自動駕駛廣泛采用,主要原因如下:
激光雷達既昂貴又笨重,尤其是與照相機相比;
激光雷達捕獲的點云分辨率較低(16~128通道),刷新率較低,不能滿足實時檢測的要求;
激光雷達的工作距離相當有限,遠離激光雷達的點云非常稀疏;
激光雷達在極端惡劣的天氣條件下不能正常工作,如大雨或大雪,因為激光的傳輸距離受到很大的影響。
2.1.3 3D Object Detection Using Other Sensors.
相比于相機和雷達,有一些傳感器對環境更為魯棒,比如毫米波雷達和紅外攝像機。毫米波雷達通過多普勒效應來測量速度,提供對周圍環境的遠距離和精確測量。它們比激光雷達便宜很多,可以抵抗惡劣的天氣條件,對照明變化也不敏感。
然而,與其他兩種傳感器相比,包含毫米波雷達數據的大規模公共數據集有限。此外,由于毫米波雷達的低分辨率和高高光性,很難獲得上下文或感知信息,不能直接檢測物體的形狀。與激光雷達和相機相比,毫米波雷達識別物體的能力相對較差。
為了進一步填補夜間自動駕駛可靠解決方案的空白,紅外攝像機已成為不可或缺的工具。紅外攝像機采用紅外熱成像技術,不受夜間、反光表面、大雨等惡劣環境的影響。紅外攝像機可以探測 300 米以外的物體。有了它們,司機有更多的時間對交通狀況的突然變化做出反應,從而大大提高了駕駛安全。與價格高達數萬美元的激光雷達傳感器相比,紅外攝像頭還是比較劃算的。
2.2 3D Object Detection through Multi-modal Fusion
在現實的自動駕駛情況下,通過單一類型的傳感器進行目標檢測是遠遠不夠的。首先,每種傳感器都有其固有的缺點。例如,只使用相機很可能遭受物體遮擋;與圖像相比,激光雷達的輸入數據分辨率較低,特別是在遠距離時,這一問題阻礙了激光雷達的應用。
圖 5 清楚地說明了兩種情況。其次,要實現真正的自動駕駛,我們需要考慮廣泛的天氣、道路和交通條件。感知子系統必須在所有不同的條件下都能提供良好的感知結果,這是依靠單一類型的傳感器難以實現的。例如進入隧道時,由于光線的突然變化,相機會出現曝光不足和過度曝光的問題。LiDAR 傳感器也會受到雨天和大霧天氣的影響。很明顯,單傳感器系統在不利條件下不能很好地工作
為了緩解這些問題,許多基于融合的三維檢測方案已經被提出來了。在這些方法中,來自具有互補特性的多種類型傳感器的數據被用來提高性能和降低成本。雖然傳感器融合帶來了好處,但進行高效的融合對底層系統設計提出了嚴峻的挑戰。
本文接下來就來討論這些挑戰。一方面,不同類型的傳感器在時間和空間上不同步;在時域上,由于不同傳感器的采集周期是相互獨立的,很難保證同時采集數據。在空間域內,傳感器在部署時具有不同的視角。另一方面,在設計一種融合方法時,我們需要密切關注幾個問題,比如:
多傳感器校準和數據對齊:由于多模態數據的異質性(如表 1 所示),無論是在原始輸入空間還是在特征空間,都很難對它們進行精確對齊。
信息丟失:為了將傳感器數據轉換成能夠以計算成本進行對齊和處理的格式,信息丟失是不可避免的
跨模態數據增強:數據增強在三維目標檢測中起著至關重要的作用,可以減少模型過擬合,這種過擬合通常是由訓練數據不足引起的。全局旋轉和隨機翻轉等增強策略在單模態融合方法中得到了廣泛的應用,但由于多傳感器一致性的問題,在許多多傳感器融合方法中缺乏這種方法。
數據集和評測標準:高質量、公共可用的多模態數據集數量有限。即使是現有的數據集也存在規模小、類別不平衡、標記錯誤等問題。此外,目前還沒有針對數據集的指標來具體評估多傳感器融合的有效性,這給多傳感器融合方法之間的比較帶來了困難。
綜上所述,傳感器融合已成為感知子系統實現滿意性能的必要模塊,但在真正享受其帶來的好處之前,還需要解決許多設計和實現上的挑戰。為了實現這一目標,本文開始對最近基于融合的 3D 目標檢測方法進行系統的回顧。這樣的回顧可以幫助確定傳感器融合中的技術挑戰,并幫助我們比較和對比各種模型提出的解決方案。特別是,由于攝像頭和激光雷達是自動駕駛中最常見的傳感器,該綜述主要關注這兩種傳感器數據的融合。
之前關于基于深度學習的多模態融合方法的調查涵蓋了大量的傳感器,包括雷達,攝像頭,激光雷達,超聲波傳感器等,并提供了一個簡短的綜述,包括多目標檢測,跟蹤,環境重建等廣泛的主題。本綜述具有明顯不同的目的:它針對的是想仔細研究多模態 3D 檢測領域的研究人員,本文的貢獻總結如下:
根據輸入傳感器數據的不同組合,本文回顧了基于多模態的三維目標檢測方法。特別是距離圖像,它是激光雷達點云的一種信息完整形式,在過去的綜述文章中沒有被討論。此外,偽激光雷達(由相機圖像生成)的表示也沒有討論;
本文從多個角度仔細研究了基于多模態的三維目標檢測策略的發展。特別關注這些方法如何實現跨模式數據對齊、如何減少信息丟失等關鍵問題;
本文詳細討論了最近的相機-激光雷達融合檢測方法。同時還總結了近年來可用于三維目標檢測的多模態數據集;
仔細討論了一些具有挑戰性的問題以及可能的解決方案,以期對未來的研究有所啟發。
Conclusion
由于三維視覺在自動駕駛等應用中的重要性日益增加,本文調研了近年來的多模態三維目標檢測網絡,特別是相機圖像和激光雷達點云的融合。首先作者仔細比較了常用的傳感器,討論了它們的優缺點,總結了單模態方法的常見問題。然后,本文提供了幾個常用的自動駕駛數據集。
為了提供一個系統的回顧,本文從以下三個維度將多模態融合方法進行分類:1)融合發生在模型中的位置;1)每個融合輸入使用數據表示的形式;3)融合算法的粒度。最后,本文討論了多模三維目標檢測中的開放式挑戰和潛在的解決方案。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
?????稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
?????投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的最新综述:自动驾驶中的多模态三维目标检测的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: KBQA相关论文分类整理:简单KBQA和
- 下一篇: 2500平方瓷砖要多大车子可以装下