长篇自动驾驶技术综述论文(上)
長(zhǎng)篇自動(dòng)駕駛技術(shù)綜述論文(上)
A Survey of Autonomous Driving: Common Practices and Emerging Technologies
Ekim Yurtsever, Jacob Lambert, Alexander Carballo,
Kazuya Takeda
論文鏈接:https://arxiv.org/abs/1906.05113
摘要
自動(dòng)駕駛系統(tǒng)(ADSs)承諾提供安全、舒適和高效的駕駛體驗(yàn)。然而,涉及配備ADS的車輛的死亡人數(shù)正在上升。只有進(jìn)一步提高ADSs的穩(wěn)健性,才能充分發(fā)揮ADSs的潛力。本文討論了尚未解決的問(wèn)題,并綜述了自動(dòng)駕駛的技術(shù)方面。對(duì)當(dāng)前挑戰(zhàn)、高級(jí)系統(tǒng)架構(gòu)、新興方法和核心功能(包括定位、映射、感知、規(guī)劃和人機(jī)界面)的研究進(jìn)行了全面回顧。此外,在我們自己的平臺(tái)上,在真實(shí)的駕駛環(huán)境中實(shí)現(xiàn)并比較了許多最先進(jìn)的算法。本文最后概述了ADS開(kāi)發(fā)中可用的數(shù)據(jù)集和工具。
索引項(xiàng)
自主車輛、控制、機(jī)器人、自動(dòng)化、智能車輛、智能交通系統(tǒng)
目錄
摘要
引言
前景與挑戰(zhàn)
系統(tǒng)構(gòu)成和框架
系統(tǒng)框架傳感器和硬件
定位與建圖
GPS-IMU融合SLAM基于先驗(yàn)地圖定位
感知
檢測(cè)
基于圖像的目標(biāo)檢測(cè)語(yǔ)義分割三維目標(biāo)檢測(cè)目標(biāo)跟蹤道路和車道線檢測(cè)
評(píng)估(ASSESSMENT)
總體風(fēng)險(xiǎn)和不確定性評(píng)估
周圍駕駛行為評(píng)估駕駛風(fēng)格識(shí)別
規(guī)劃與決策
全局規(guī)劃局部規(guī)劃
人機(jī)交互
數(shù)據(jù)集和開(kāi)源工具
數(shù)據(jù)集和標(biāo)準(zhǔn)開(kāi)源框架和模擬器
總結(jié)
參考文獻(xiàn)
引言
主要介紹了一些背景,提到了兩個(gè)著名的自動(dòng)駕駛研究項(xiàng)目
1、Eureka
Project PROMETHEUS[^1]:1987-1995年間在歐洲開(kāi)展,是最早的主要自動(dòng)化駕駛研究之一,戴姆勒-奔馳公司的VITA II也基于此而來(lái)。
2、DARPA
Grand Challenge[^2]:美國(guó)國(guó)防部主辦的業(yè)內(nèi)最負(fù)盛名的挑戰(zhàn)賽,許多經(jīng)典的文章都來(lái)自于這里。
在傳統(tǒng)的自動(dòng)駕駛方案系統(tǒng)架構(gòu)中,一般將任務(wù)劃分為多個(gè)模塊,并在各個(gè)模塊上使用一系列傳感器和算法。但是隨著深度學(xué)習(xí)[^3]的發(fā)展,逐漸出現(xiàn)了一些端到端的系統(tǒng)。ADS高級(jí)系統(tǒng)架構(gòu)分類如下,主要是按連通性和算法實(shí)現(xiàn)邏輯劃分,具體介紹在后面。
前景與挑戰(zhàn)
前景就不提了,自動(dòng)駕駛不缺故事。按照美國(guó)汽車工程師學(xué)會(huì)(SAE)的定義,汽車的自動(dòng)化水平如下:
L0:無(wú)自動(dòng)化。
L1:原始駕駛員輔助系統(tǒng)(Primitive driver assistance systems),包括自適應(yīng)巡航控制、防抱死制動(dòng)等。
L2:部分自動(dòng)化,先進(jìn)的輔助系統(tǒng)(Advanced assistance systems),例如緊急制動(dòng)或避免碰撞。
L3:有條件的全自動(dòng)化(Conditional automation),在正常操作期間,駕駛員可以專注于除駕駛以外的其他任務(wù),但是緊急情況下必須能快速響應(yīng)并接管車輛。
L4:在天氣條件許可,基礎(chǔ)設(shè)施(信號(hào)地圖等)完善的情況下,完全不需要駕駛員。
L5:無(wú)論在任何場(chǎng)景下,都不需要駕駛員,目前尚無(wú)完全實(shí)現(xiàn)L4級(jí)別及以上的自動(dòng)駕駛車輛。
系統(tǒng)構(gòu)成和框架
像引言中顯示的那樣,一般從系統(tǒng)框架上可以分為單車輛系統(tǒng)(Ego-only systems)和互聯(lián)車輛系統(tǒng)(Connected multi-agent systems);從算法實(shí)現(xiàn)上,可以分為兩大類,一類是通過(guò)將各個(gè)部分模塊化來(lái)實(shí)現(xiàn),另一類是直接通過(guò)端到端的實(shí)現(xiàn)。
系統(tǒng)構(gòu)成
單車輛系統(tǒng),顧名思義就是始終在一輛車自身執(zhí)行所有必要的自動(dòng)駕駛操作,而互聯(lián)車輛系統(tǒng)可能需要依賴于其他車輛和一些基礎(chǔ)設(shè)施來(lái)完成一些操作,比如現(xiàn)在比較火熱的車輛網(wǎng),V2X等。就目前來(lái)說(shuō),當(dāng)然還是單車輛系統(tǒng)更為常見(jiàn)。
模塊化系統(tǒng)(Modular systems),指將傳感器輸入到執(zhí)行器輸出的中間過(guò)程分別構(gòu)造成一個(gè)個(gè)獨(dú)立的模塊,比如定位、建圖、感知、評(píng)估、規(guī)劃與決策、車輛控制、預(yù)測(cè)、人機(jī)交互等。模塊化的基本邏輯就是分而治之,把一個(gè)復(fù)雜的任務(wù)分成若干個(gè)較為簡(jiǎn)單的子任務(wù)。除此之外,模塊化還有一些隱藏的優(yōu)勢(shì),比如說(shuō)對(duì)一些約束(如緊急制動(dòng),超速等),多模塊意味著可以從不同角度施加約束,可以保證在其中部分傳感器出現(xiàn)偏差的時(shí)候仍能提供較為可靠的輸出。反過(guò)來(lái)說(shuō),多模塊也意外著出錯(cuò)的概率大大增加,某個(gè)模塊的錯(cuò)誤可能會(huì)沿著進(jìn)程傳播擴(kuò)散,如前段時(shí)間的特斯拉事故,感知模塊誤將白色拖車分類為天空,即使后續(xù)模塊完全正確執(zhí)行,錯(cuò)誤也無(wú)法避免。
端到端系統(tǒng)(End-to-end systems),指的是直接從感知輸入產(chǎn)生輸出,常見(jiàn)的端到端系統(tǒng)有三種主要方法:直接監(jiān)督的深度學(xué)習(xí)( Direct supervised deep learning)[5]、神經(jīng)進(jìn)化(Neuroevolution)[6]和深度強(qiáng)化學(xué)習(xí)(Deep reinforcement learning)[7]。一般端到端系統(tǒng)的流程圖如下圖所示
最早的端到端系統(tǒng)可以追溯到ALVINN[5],他訓(xùn)練了一個(gè)三層全連接的網(wǎng)絡(luò)來(lái)輸出車輛的前進(jìn)方向。文[74]提出了一種輸入圖像輸出轉(zhuǎn)向的深度卷積神經(jīng)網(wǎng)絡(luò)。[75]提出了一種時(shí)空網(wǎng)絡(luò)結(jié)構(gòu),即FCN-LSTM,可以預(yù)測(cè)車輛的運(yùn)動(dòng)。[4]介紹了另一種卷積模型DeepDriving,可以從輸入圖像中學(xué)習(xí)一組離散的感知指標(biāo)。實(shí)際上這種方法并不是嚴(yán)格端到端的,因?yàn)槿绾螐囊幌盗懈兄笜?biāo)中得到正確的駕駛動(dòng)作還需要另外的模塊。
上述的方法都是有監(jiān)督的訓(xùn)練,也就是說(shuō)需要一個(gè)專家的行為序列。那么就引入了另一個(gè)問(wèn)題,自動(dòng)駕駛系統(tǒng)是否應(yīng)該像人一樣開(kāi)車?基于上面那個(gè)問(wèn)題,出現(xiàn)了一種新的深度強(qiáng)化學(xué)習(xí)模型Deep Q Networks(DQN),將強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)相結(jié)合。強(qiáng)化學(xué)習(xí)的目標(biāo)是選擇一組能最大化獎(jiǎng)勵(lì)的行動(dòng),深度卷積神經(jīng)網(wǎng)絡(luò)在這里的作用是用來(lái)逼近最優(yōu)獎(jiǎng)勵(lì)函數(shù)。簡(jiǎn)單來(lái)說(shuō),基于DQN的系統(tǒng)不再是去模仿專家的行為,而是去學(xué)習(xí)一種“最佳”的駕駛方式[^7]
最后一種神經(jīng)進(jìn)化是指利用進(jìn)化算法來(lái)訓(xùn)練人工神經(jīng)網(wǎng)絡(luò),但就實(shí)際而言,經(jīng)進(jìn)化的端到端駕駛不像DQN和直接監(jiān)督學(xué)習(xí)那樣受歡迎。
神經(jīng)網(wǎng)絡(luò)的出發(fā)點(diǎn)是去除了反向傳播,從邏輯上來(lái)說(shuō),更接近生物的神經(jīng)網(wǎng)絡(luò)。在[63]中,作者使用駕駛模擬器對(duì)RNN進(jìn)行神經(jīng)進(jìn)化訓(xùn)練。上述三種端到端自動(dòng)駕駛的方法相比,直接監(jiān)督學(xué)習(xí)的方法可以利用標(biāo)記數(shù)據(jù)離線訓(xùn)練,而DQN和神經(jīng)進(jìn)化都需要在線交互。從理論上講,端到端自動(dòng)駕駛是可行的,但是還沒(méi)有在真實(shí)的城市場(chǎng)景中實(shí)現(xiàn)(demo不算),最大的缺點(diǎn)是缺乏可解釋性和硬編碼安全措施(Hard coded safety measures)。 互聯(lián)系統(tǒng)(Connected
systems):有一些研究人員認(rèn)為,靠在單車輛系統(tǒng)上疊傳感器是局限的,自動(dòng)駕駛的未來(lái)應(yīng)該是側(cè)重在多車輛之間的信息共享。隨著車輛自組織網(wǎng)絡(luò)(VANETs)的使用,無(wú)論是行人信息,傳感器信息,亦或者是交通信號(hào)等,利用V2X(Vehicle to everything),車輛可以輕松訪問(wèn)其他車輛的數(shù)據(jù),來(lái)消除單車的感知范圍,盲點(diǎn),算力的限制。
車輛自組織網(wǎng)絡(luò)可以通過(guò)兩種不同的方式實(shí)現(xiàn):傳統(tǒng)的基于IP的網(wǎng)絡(luò)和以信息為中心的網(wǎng)絡(luò)( Information-Centric
networking,ICN)[8]。由于車輛的高度流動(dòng)性和在道路網(wǎng)絡(luò)上的分散性,因此傳統(tǒng)的基于IP主機(jī)的網(wǎng)絡(luò)協(xié)議不是很適用,事實(shí)上,信息源的身份有時(shí)候不是那么重要的一件事,ICN顯然是更合理的方式。在這種情況下,車輛將查詢信息匯聚到某個(gè)區(qū)域而不是某個(gè)地址,同時(shí),它們開(kāi)源接收來(lái)自任何發(fā)送方的響應(yīng)。
上面我們提到可以利用車輛間的共享信息來(lái)完成一些駕駛?cè)蝿?wù),但是這里還有一個(gè)待解決的問(wèn)題。想象一下一個(gè)城市有幾十萬(wàn)輛車,每輛車可能有若干個(gè)攝像頭,雷達(dá),各種各樣的傳感器,每時(shí)每刻產(chǎn)生的數(shù)據(jù)量是十分龐大的,更關(guān)鍵的是,大多數(shù)情況下,這些數(shù)據(jù)是雷同的,即使不考慮傳輸和計(jì)算的負(fù)擔(dān),對(duì)算力來(lái)說(shuō)也是極大的浪費(fèi)。為了減少待處理的數(shù)據(jù)規(guī)模,[9]引入了一個(gè)符號(hào)學(xué)框架,該框架集成了不同的信息源,并將原始傳感器數(shù)據(jù)轉(zhuǎn)換為有意義的描述。除此之外,車輛云計(jì)算(Vehicular Cloud
Computing,VCC)[10]與傳統(tǒng)的云計(jì)算不同,它將傳感器信息保存在車輛上,只有當(dāng)本地其他車輛查詢時(shí)才會(huì)被共享,節(jié)省了將恒定的傳感器數(shù)據(jù)流上載/下載到web的成本。
傳感器和硬件
為了保證系統(tǒng)的魯棒性和可靠性,大多數(shù)任務(wù)都需要較高的傳感器冗余度,因此ADS一般都采用多種車載傳感器。硬件模塊大致可以分為五類,外部感知傳感器(Exteroceptive sensors),監(jiān)測(cè)車輛自身狀態(tài)的本體感知傳感器(Proprioceptive sensors),通信單元,執(zhí)行器和計(jì)算單元。常見(jiàn)的外部傳感器比較如下表:
單目相機(jī)(Monocular Cameras):最常見(jiàn)最廉價(jià)的傳感器之一,除此之外,二維的計(jì)算機(jī)視覺(jué)算是一個(gè)比較成熟的研究領(lǐng)域,雖然理論上無(wú)法獲得深度,但是現(xiàn)在也有一些基于單目深度的結(jié)果,缺點(diǎn)主要還是在精度和容易受環(huán)境因素影響上。現(xiàn)在還有一些針對(duì)特殊場(chǎng)景而開(kāi)發(fā)的相機(jī),如全景相機(jī)(Omnidirection Camera),閃光相機(jī)(Flash camera),熱敏相機(jī)(Thermal Cameras),事件相機(jī)(Event Camera)[11]等。所謂的全景相機(jī)就是理論上擁有360度視角的相機(jī),事實(shí)上,這一類相機(jī)的難點(diǎn)并不在捕捉圖像而是在圖像拼接上,因?yàn)榍蛎鎴D像是高度失真的,所以校準(zhǔn)的難度很大。
而事件相機(jī)是一種比較新穎的概念,傳統(tǒng)相機(jī)是按時(shí)間采用,而事件相機(jī)是事件觸發(fā)型,它對(duì)場(chǎng)景中移動(dòng)造成的變換比較敏感,因此可以用在檢測(cè)動(dòng)態(tài)目標(biāo)上。事件相機(jī)的簡(jiǎn)單示例如圖3和圖4所示。
雷達(dá)(Radar)和激光雷達(dá)(Lidar):一般來(lái)說(shuō),現(xiàn)在都是采用多傳感器的形式,用雷達(dá)或者激光雷達(dá)來(lái)彌補(bǔ)相機(jī)(包括深度相機(jī))在深度信息上的缺陷。激光雷達(dá)和雷達(dá)的工作原理其實(shí)差不多,只不過(guò)激光雷達(dá)發(fā)射的是紅外線而不是無(wú)線電波,在200米以內(nèi)的精度是很高的,但是相對(duì)雷達(dá)來(lái)說(shuō),更容易受到天氣的影響。雷達(dá)的精度雖然不如激光雷達(dá)高,但是由于測(cè)距長(zhǎng),成本低,對(duì)天氣魯棒性強(qiáng),目前已經(jīng)廣泛應(yīng)用于輔助駕駛(ADAS)中,比如接近警告和自適應(yīng)巡航。(原文中沒(méi)有提到這兩種雷達(dá)的干擾問(wèn)題,實(shí)際上金屬對(duì)電磁波的干擾,生物對(duì)紅外的干擾,相同頻段的(激光)雷達(dá)互相干擾是十分關(guān)鍵的問(wèn)題)。 本體傳感器:一般指車輛自身攜帶的傳感器,如里程計(jì),IMU,轉(zhuǎn)速計(jì)等。一些研究機(jī)構(gòu)及公司的整車配置如下表所示:
定位與建圖
定位指的是在環(huán)境中找到相對(duì)于參考系的位置,對(duì)于任何移動(dòng)機(jī)器人來(lái)說(shuō)這個(gè)任務(wù)都是最基本的。下文會(huì)詳細(xì)介紹到三種最常見(jiàn)的方法:GPS-IMU融合,SLAM,基于先驗(yàn)地圖定位。幾種定位方法的比較如下表所示
GPS-IMU融合
GPS-IMU融合的主要原理是用絕對(duì)位置數(shù)據(jù)修正航位推算(dead reckoning)的累積誤差[12]。在GPS-IMU系統(tǒng)中,IMU測(cè)量機(jī)器人位置和方向的變化,并對(duì)這些信息進(jìn)行處理,以便用航位推算法對(duì)機(jī)器人進(jìn)行定位。但是IMU有一個(gè)顯著的缺點(diǎn),就是我們常說(shuō)的累積誤差。因此引入GPS的絕對(duì)位置信息(相當(dāng)于一個(gè)反饋),可以有效地對(duì)IMU誤差進(jìn)行校正。
GPS-IMU融合的方法的精度比較低,實(shí)際上并不能直接用在車輛定位上。在2004年的DARPA挑戰(zhàn)賽中,卡內(nèi)基梅隆大學(xué)(Carnegie Mellon University)的紅隊(duì)就因?yàn)镚PS錯(cuò)誤而未能通過(guò)比賽。除此之外,在密集的城市環(huán)境中,像隧道,高層建筑等都會(huì)影響GPS的精度。盡管GPS-IMU系統(tǒng)本身無(wú)法滿足自動(dòng)駕駛的性能要求,但是可以和激光雷達(dá)等傳感器相結(jié)合進(jìn)行位姿估計(jì)。
SLAM
顧名思義,SLAM是一種在線地圖繪制同時(shí)定位的行為(理論上的同時(shí))。理論上SLAM不需要關(guān)于環(huán)境的先驗(yàn)信息,就目前而言,更多是應(yīng)用在室內(nèi)環(huán)境(室外更多還是基于預(yù)先構(gòu)建的地圖進(jìn)行定位)。關(guān)于自動(dòng)駕駛領(lǐng)域的SLAM可以參見(jiàn)[13]。
基于先驗(yàn)地圖定位
基于先驗(yàn)地圖的定位技術(shù)的核心思想是匹配:定位是通過(guò)比較在線數(shù)據(jù)同先驗(yàn)地圖的信息來(lái)找到最佳匹配位置[14]。也就是根據(jù)先驗(yàn)的地圖信息來(lái)確定當(dāng)前的位姿。這個(gè)方法有一個(gè)缺陷,一般需要額外的一個(gè)地圖制作步驟,而且,環(huán)境的變化可能會(huì)對(duì)結(jié)果產(chǎn)生負(fù)面影響(比如光照變化,參照物移動(dòng)等)。
這類方法大致可以分為兩大類:基于路標(biāo)的定位和基于點(diǎn)云的匹配。- 基于路標(biāo):與點(diǎn)云匹配相比,基于路標(biāo)的定位計(jì)算成本要低得多。理論上來(lái)說(shuō),只要路標(biāo)的數(shù)量足夠多,這種定位就是魯棒的。[15]中采用了激光雷達(dá)和蒙特卡羅結(jié)合的方法,通過(guò)匹配路標(biāo)和路緣(road markers and curbs)來(lái)定位車輛的位置。[16]介紹了一種基于視覺(jué)的道路標(biāo)記(road marking)檢測(cè)方法,事先保存了一份低容量的全局?jǐn)?shù)字標(biāo)記地圖(a low-volume digital marker map with global coordinates),然后與前置相機(jī)的采集數(shù)據(jù)進(jìn)行比較。最后根據(jù)檢測(cè)結(jié)果和GPS-IMU輸出利用粒子濾波器進(jìn)行位置和方向的更新。
該方法的主要缺點(diǎn)在于地標(biāo)的依賴性。基于點(diǎn)云:點(diǎn)云匹配一般是指局部的在線掃描點(diǎn)云通過(guò)平移和旋轉(zhuǎn)同先驗(yàn)的全局點(diǎn)云進(jìn)行匹配,根據(jù)最佳匹配的位置來(lái)推測(cè)機(jī)器人相對(duì)地圖的局部位置。對(duì)于初始位姿的估計(jì),一般是結(jié)合GPS利用航位推算。下圖展示了利用Autoware進(jìn)行的地圖制作結(jié)果:
文獻(xiàn)[17]中使用了一種帶有概率圖的多模態(tài)方法,在城市環(huán)境中實(shí)現(xiàn)了均方誤差小于10cm的定位。與一般逐點(diǎn)進(jìn)行點(diǎn)云匹配并舍棄不匹配部分相比,該方法中所有觀測(cè)數(shù)據(jù)的方差都會(huì)被建模并應(yīng)用于匹配任務(wù)。后續(xù)幾種常見(jiàn)的匹配方法包括基于高斯混合模型(Gaussian Mixture Maps ,GMM)),迭代最近點(diǎn)匹配(Iterative Closest Point ,ICP),正態(tài)分布變換(Normal Distribution Transform ,NDT)等。關(guān)于ICP和NDT,[18]進(jìn)行了詳細(xì)的比較(我之前也寫過(guò)一篇博客)。ICP和NDT算法都有相應(yīng)的一些改進(jìn)和變式,比如[19]提出了一種基于NDT的蒙特卡羅定位方法,該方法利用同時(shí)利用了離線的靜態(tài)地圖和不斷進(jìn)行更新的短期地圖,當(dāng)靜態(tài)地圖失效時(shí),基于NDT的柵格來(lái)更新短期地圖。
基于先驗(yàn)地圖方法最大的缺陷就在于先驗(yàn)地圖的獲取上,實(shí)際上制作和維護(hù)一個(gè)可靠的高精度地圖是相當(dāng)費(fèi)時(shí)又費(fèi)力的一件事。除此之外,還有一些其他情況,比如跨維度的匹配(二維到三維,三維到二維等)。[20]就提到一種利用單目相機(jī)在點(diǎn)云中進(jìn)行定位的方法。在初始姿態(tài)估計(jì)的基礎(chǔ)上,利用離線的三維點(diǎn)云地圖生成二維圖像,并同相機(jī)捕捉到的圖像進(jìn)行在線歸一化比較。這種方法相當(dāng)于簡(jiǎn)化了感知的工作,但是增大了計(jì)算的復(fù)雜度。
感知
感知周圍環(huán)境并提取可供安全導(dǎo)航的信息是自動(dòng)駕駛的核心之一。而且隨著近年來(lái)計(jì)算機(jī)視覺(jué)研究的發(fā)展,相機(jī)包括三維視覺(jué)逐漸成為感知中最常用的傳感器。本節(jié)主要討論基于圖像的目標(biāo)檢測(cè),語(yǔ)義分割,三維目標(biāo)檢測(cè),道路和車道線檢測(cè),目標(biāo)跟蹤等。
基于圖像的目標(biāo)檢測(cè)
一般目標(biāo)檢測(cè)指的是識(shí)別感興趣目標(biāo)的位置和大小(確定圖像中是否存在特定類的對(duì)象,然后通過(guò)矩形邊界框確定其位置和大小),比如交通燈,交通標(biāo)志,其他車輛,行人,動(dòng)物等。目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)的核心問(wèn)題,更重要的是,它還是其他許多任務(wù)的基礎(chǔ),比如說(shuō)目標(biāo)跟蹤,語(yǔ)義分割等。
對(duì)于物體識(shí)別的研究雖然始于50多年前,但是直到最近幾年,算法的性能才算真正達(dá)到自動(dòng)駕駛相關(guān)的水平。2012年深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)
AlexNet[21]一舉玩穿了ImageNet挑戰(zhàn)賽,開(kāi)啟了深度學(xué)習(xí)用于目標(biāo)檢測(cè)的浪潮。基于圖像的目標(biāo)檢測(cè)survey也有很多,比如[22]。盡管目前最先進(jìn)的方法基本都依賴于DCNN,但它們之間也存在明顯的區(qū)別:1)單級(jí)檢測(cè)框架(Single stage detection frameworks)使用單個(gè)網(wǎng)絡(luò)同時(shí)生成對(duì)象檢測(cè)位置和類別預(yù)測(cè)。2)區(qū)域生成檢測(cè)框架(Region proposal detection frameworks)有兩個(gè)不同的階段,首先生成感興趣的一般區(qū)域(候選區(qū)域),然后通過(guò)單獨(dú)的分類器網(wǎng)絡(luò)進(jìn)行分類。
區(qū)域生成網(wǎng)絡(luò)是目前比較先進(jìn)的檢測(cè)方法,不足是對(duì)計(jì)算能力要求高,不容易實(shí)現(xiàn),訓(xùn)練和調(diào)整。相應(yīng)的,單級(jí)檢測(cè)算法具有推理速度快,存儲(chǔ)成本低等優(yōu)點(diǎn),非常適合實(shí)時(shí)自動(dòng)駕駛場(chǎng)景。YOLO[23]是當(dāng)前十分流行的一種單級(jí)檢測(cè)算法,也有許多改進(jìn)的版本。YOLO的網(wǎng)絡(luò)利用DCNN在粗網(wǎng)格上提取圖像特征,顯著地降低了輸入圖像的分辨率。之后用一個(gè)全連接的神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)每個(gè)網(wǎng)格單元的類概率和邊界框參數(shù),這種設(shè)計(jì)使得YOLO速度非常快。另一種廣泛使用的方法是單點(diǎn)檢測(cè)器(Single Shot Detector,SSD)[24],它的速度甚至比YOLO更快。SSD與YOLO都在粗網(wǎng)格上進(jìn)行檢測(cè),但是SSD也使用在DCNN早期得到的高分辨率特征來(lái)改進(jìn)對(duì)小目標(biāo)的檢測(cè)和定位。
對(duì)于自動(dòng)駕駛?cè)蝿?wù)來(lái)說(shuō),可靠的檢測(cè)是至關(guān)重要的,但同時(shí)也需要平衡精度和計(jì)算成本,以便規(guī)劃和控制模塊能有充足的時(shí)間來(lái)對(duì)檢測(cè)結(jié)果做出反應(yīng)。因此,目前SSD通常是ADS的首選檢測(cè)算法。當(dāng)然,區(qū)域生成網(wǎng)絡(luò)(RPN)在目標(biāo)識(shí)別和定位精度方面的性能已經(jīng)遠(yuǎn)勝單級(jí)檢測(cè)框架算法,并且近年來(lái)隨著計(jì)算能力的不斷提高,也許在不久的將來(lái),RPN或者其他兩階段檢測(cè)框架就能適用于ADS任務(wù)中。
基于圖像的目標(biāo)檢測(cè)方法的主要不足大多來(lái)源于相機(jī)的天然缺陷,比如難以處理弱光條件,對(duì)于陰影,天氣,光照變化的適應(yīng)性不足等,尤其是監(jiān)督學(xué)習(xí)的方法。一方面可以研究一些光照不變特征的方法,另一方面的話,通常來(lái)說(shuō),采用單傳感器很難能適應(yīng)各種復(fù)雜的現(xiàn)實(shí)情況,因此采用多傳感器融合的策略是大勢(shì)所趨。比如利用雷達(dá)或者紅外傳感器來(lái)處理低光條件下的目標(biāo)檢測(cè)等。
語(yǔ)義分割
這里簡(jiǎn)單談一下我理解的圖像分類,目標(biāo)檢測(cè)和語(yǔ)義分割的區(qū)別。圖像分類是給你一堆圖,告訴我每張圖主要內(nèi)容的類別,最經(jīng)典的就是MNIST上的手寫數(shù)字識(shí)別,輸出是每張圖代表什么數(shù)字。目標(biāo)檢測(cè)是輸入一系列圖,把每張圖里我感興趣的目標(biāo)框出來(lái),比如上面說(shuō)的用YOLO做行人檢測(cè),輸出就是用矩形框把每張圖里的行人框出來(lái)。語(yǔ)義分割的任務(wù)是把圖像里的每一個(gè)像素都?xì)w到某個(gè)類別里,有點(diǎn)像機(jī)器學(xué)習(xí)中聚類的概念。下面兩張圖左邊是目標(biāo)檢測(cè),右邊是語(yǔ)義分割。
為什么自動(dòng)駕駛需要研究語(yǔ)義分割呢?因?yàn)閮H僅簡(jiǎn)單用矩形框把目標(biāo)框出來(lái)的效果可能很差,尤其是在道路,交通線上。甚至我們應(yīng)該更進(jìn)一步進(jìn)行實(shí)例分割(Instance segmentation),來(lái)區(qū)分不同軌跡和行為的對(duì)象。得益于目標(biāo)檢測(cè)的發(fā)展,分割方法逐漸在實(shí)時(shí)應(yīng)用中變得可行。Mask R-CNN[25]是Faster
R-CNN[26]的推廣,多任務(wù)網(wǎng)絡(luò)可以同時(shí)實(shí)現(xiàn)精確的邊界框估計(jì)和實(shí)例分割,該方法可以用來(lái)進(jìn)行行人姿態(tài)估計(jì)等任務(wù)。Mask R-CNN的速度可以達(dá)到每秒5幀,速度接近了實(shí)時(shí)ADS的要求。
與使用CNN使用區(qū)域生成網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測(cè)不同,分割網(wǎng)絡(luò)通常采用卷積的組合進(jìn)行特征提取,然后利用反卷積(去卷積,deconvolutions)來(lái)獲得像素級(jí)標(biāo)簽[27]。此外,特征金字塔網(wǎng)絡(luò)(Feature pyramid networks)也被廣泛使用,比如在PSPNet[28]中,它還引入了擴(kuò)散卷積(dilated convolutions)進(jìn)行分割。DeepLab[29]是目前最先進(jìn)的對(duì)象分割模型,主要用到了稀疏卷積(sparse convolutions)的思想。
盡管大多數(shù)分割網(wǎng)絡(luò)仍然太慢且計(jì)算量巨大,無(wú)法在ADS中使用,但需要注意的是,許多分割網(wǎng)絡(luò)最初都是針對(duì)不同的任務(wù)(如邊界框估計(jì))訓(xùn)練的,然后在推廣到分割網(wǎng)絡(luò)。而且之后證明這些網(wǎng)絡(luò)可以學(xué)習(xí)圖像的通用特征表示并推廣到其他任務(wù)當(dāng)中。這也許提供了另一種可能性,利用單一的廣義感知網(wǎng)絡(luò)可以解決ADS的所有不同感知任務(wù)。
總結(jié)
以上是生活随笔為你收集整理的长篇自动驾驶技术综述论文(上)的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 常用语义分割小样本模型
- 下一篇: 长篇自动驾驶技术综述论文(下)