浅析CV下的无人驾驶技术
報(bào)告題目 淺析CV下的無(wú)人駕駛技術(shù)
1.概述:
2006年,Geoffrey Hinton老爺子針對(duì)傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練速度慢,面對(duì)多層Hidden Layer嚴(yán)重出現(xiàn)過(guò)擬合的現(xiàn)狀,提出了無(wú)監(jiān)督預(yù)訓(xùn)練對(duì)權(quán)值進(jìn)行初始化+有監(jiān)督訓(xùn)練微調(diào)的解決方案。從此,基于神經(jīng)網(wǎng)絡(luò)的Deep Learning開(kāi)始活躍在世界科研前沿[1]。
而目前Deep Learning在工業(yè)上應(yīng)用最廣的前沿領(lǐng)域分別是:
1.CV:計(jì)算機(jī)視覺(jué)領(lǐng)域
2.NLP:自然語(yǔ)言處理領(lǐng)域
3.ASR:語(yǔ)音識(shí)別領(lǐng)域
4.Autopilot:自動(dòng)駕駛其實(shí)也是CV的衍生領(lǐng)域
5.推薦:傳統(tǒng)的推薦都是用GBDT+LR模型來(lái)做的,目前深度學(xué)習(xí)在推薦領(lǐng)域也得到了廣泛的應(yīng)用。
在深度學(xué)習(xí)算法的不斷更新和計(jì)算機(jī)硬件的不斷升級(jí)下,我們以前電影中所謂的無(wú)人駕駛汽車在計(jì)算機(jī)視覺(jué)技術(shù)下已經(jīng)開(kāi)始出現(xiàn)了眉目[2][3]。
2.無(wú)人駕駛技術(shù)相關(guān)技術(shù)介紹:
1.傳感器
在無(wú)人駕駛中,車輛在行駛時(shí)需要實(shí)時(shí)地去感知周圍的環(huán)境,包括行駛在哪里、周圍有什么障礙物、當(dāng)前交通信號(hào)怎樣等等。就像我們?nèi)祟愅ㄟ^(guò)眼睛去觀察世界,無(wú)人車也需要這樣一種 “眼睛”,這就是傳感器。傳感器有很多種,例如激光雷達(dá)、攝像頭、超聲波等等。
由于不同的傳感器的數(shù)據(jù)格式有很大差別,所以也會(huì)有專門針對(duì)某種傳感器數(shù)據(jù)設(shè)計(jì)的算法。例如有專門針對(duì)激光點(diǎn)云設(shè)計(jì)的障礙物檢測(cè)模型VoxelNet[4]。
VoxelNet:將3D點(diǎn)云數(shù)據(jù)看做一個(gè)個(gè)的Voxel(立體塊)進(jìn)行處理。VoxelNet的網(wǎng)絡(luò)結(jié)構(gòu)分為三部分,分別為(1)特征學(xué)習(xí)網(wǎng)絡(luò)(2)中部卷積層(3)RPN層,如下圖所示。
圖1.VoxelNet的網(wǎng)絡(luò)結(jié)構(gòu)模型
2.目標(biāo)檢測(cè)
由于攝像頭數(shù)據(jù)包含豐富的顏色信息,所以對(duì)于精細(xì)的障礙物類別識(shí)別、信號(hào)燈檢測(cè)、車道線檢測(cè)、交通標(biāo)志檢測(cè)等問(wèn)題就需要依賴計(jì)算機(jī)視覺(jué)技術(shù)。無(wú)人駕駛中的目標(biāo)檢測(cè)與學(xué)術(shù)界中標(biāo)準(zhǔn)的目標(biāo)檢測(cè)問(wèn)題有一個(gè)很大的區(qū)別,就是距離。無(wú)人車在行駛時(shí)只知道前面有一個(gè)障礙物是沒(méi)有意義的,還需要知道這個(gè)障礙物的距離,或者說(shuō)需要知道這個(gè)障礙物的 3D 坐標(biāo),這樣在做決策規(guī)劃時(shí),才可以知道要用怎樣的行駛路線來(lái)避開(kāi)這些障礙物。這個(gè)問(wèn)題對(duì)于激光的障礙物檢測(cè)來(lái)說(shuō)很容易,因?yàn)榧す獗旧砭桶嚯x信息,但是想只憑借圖片信息去計(jì)算距離難度比較高。
自2014年以后,目標(biāo)檢測(cè)的發(fā)展脈絡(luò)如下圖所示:
圖2.目標(biāo)檢測(cè)的發(fā)展脈絡(luò)
Focal loss[5]的公式:
其中:
其中γ為常數(shù),且當(dāng)其為0時(shí),FL和普通的交叉熵?fù)p失函數(shù)一致。 γ不同取值,FL曲線如下:
圖3 Focal loss不同γ曲線圖
3.分割
分割技術(shù)在無(wú)人駕駛中比較主要的應(yīng)用是可行駛區(qū)域識(shí)別。可行駛區(qū)域可以定義成機(jī)動(dòng)車行駛區(qū)域,或者當(dāng)前車道區(qū)域等。由于這種區(qū)域通常是不規(guī)則多邊形,所以分割是一種較好的解決辦法。
在無(wú)人駕駛中應(yīng)用比較多的是語(yǔ)義分割。例如路面分割、人行橫道分割等等。語(yǔ)義分割比較早期和經(jīng)典的模型是 FCN[6]。FCN 有幾個(gè)比較經(jīng)典的改進(jìn),首先是用全卷積層替換了全連接層,其次是卷積之后的小分辨率 Feature Map 經(jīng)過(guò)上層采樣,再得到原分辨率大小的結(jié)果,最后 FCN 使用了跨層連接的方式。跨層連接可以將高層的語(yǔ)義特征和底層的位置特征較好地結(jié)合在一起,使得分割的結(jié)果更為準(zhǔn)確。FCN 結(jié)構(gòu)圖如下所示:
圖4.FCN 結(jié)構(gòu)圖
目前很多主流的分割模型準(zhǔn)確率都比較高,但是幀率會(huì)比較低。而無(wú)人駕駛的應(yīng)用場(chǎng)景中模型必須實(shí)時(shí),尤其是高速場(chǎng)景下,對(duì)模型的速度要求更高。目前美團(tuán)使用的是改進(jìn)版的 ICNet[7],既保證了模型的運(yùn)行速度,又保證了模型的準(zhǔn)確率。
圖5.ICNet模型結(jié)構(gòu)
4.距離估計(jì)
對(duì)于距離信息的計(jì)算有多種計(jì)算方式:
激光測(cè)距,原理是根據(jù)激光反射回的時(shí)間計(jì)算距離。這種方式計(jì)算出的距離是最準(zhǔn)的,但是計(jì)算的輸出頻率依賴于激光本身的頻率,一般激光是 10Hz。
單目深度估計(jì),原理是輸入是單目相機(jī)的圖片,然后用深度估計(jì)的 CNN 模型進(jìn)行預(yù)測(cè),輸出每個(gè)像素點(diǎn)的深度。這種方式優(yōu)點(diǎn)是頻率可以較高,缺點(diǎn)是估出的深度誤差比較大。
結(jié)構(gòu)光測(cè)距,原理是相機(jī)發(fā)出一種獨(dú)特結(jié)構(gòu)的結(jié)構(gòu)光,根據(jù)返回的光的偏振等特點(diǎn),計(jì)算每個(gè)像素點(diǎn)的距離。這種方式主要缺點(diǎn)是結(jié)構(gòu)光受自然光影響較大,所以在室外難以使用。
雙目測(cè)距,原理是根據(jù)兩個(gè)鏡頭看到的微小差別,根據(jù)兩個(gè)鏡頭之間的距離,計(jì)算物體的距離。這種方式缺點(diǎn)是計(jì)算遠(yuǎn)處物體的距離誤差較大。
3.業(yè)界相關(guān)進(jìn)展及應(yīng)用
目前業(yè)界開(kāi)源的解決方案中比較成熟的是百度的 Apollo[8],包含了改進(jìn)的 ROS 底層系統(tǒng),以及無(wú)人駕駛中各個(gè)模塊的實(shí)現(xiàn)。
除了 Apollo 之外,業(yè)界開(kāi)源解決方案還有 Autoware[9]以及美團(tuán)自研算法。
美團(tuán)的自研算法參考了 Autoware 的這種解決思路,并做了很多改進(jìn)。同樣先將激光點(diǎn)轉(zhuǎn)換到圖片當(dāng)中,這樣我們就知道每個(gè)激光點(diǎn)打到了哪里。在得到每個(gè) 2D 框中的激光點(diǎn)之后,我們需要做一步聚類操作,這樣可以過(guò)濾掉打到背景上的點(diǎn),于是我們就得到了打到這個(gè)物體上的激光點(diǎn)。然后在三維空間中,我們可以擬合這些激光點(diǎn),得到一個(gè)三維框,包含了物體準(zhǔn)確的位置信息。
這種方法計(jì)算出的三維框相對(duì)比較準(zhǔn)確,但缺點(diǎn)是對(duì)于遠(yuǎn)處較小的物體,由于打到的激光點(diǎn)太少了,難以擬合出合適的結(jié)果。具體效果如下圖:
4.無(wú)人駕駛技術(shù)的未來(lái)前景和挑戰(zhàn)
汽車的出現(xiàn)本身對(duì)人類社會(huì)來(lái)說(shuō)有著非凡的意義,而無(wú)人駕駛車在普通汽車上融合了自動(dòng)化技術(shù)、智能化技術(shù)以及互聯(lián)網(wǎng)化技術(shù)等多種新型技術(shù),對(duì)汽車產(chǎn)業(yè)來(lái)說(shuō)更是一個(gè)重大的飛躍。無(wú)人駕駛技術(shù)的實(shí)現(xiàn),可以解決很多交通問(wèn)題,減少交通事故,為人們的生活帶來(lái)便捷,是人類社會(huì)的一個(gè)重要發(fā)展方向。
同時(shí),無(wú)人駕駛技術(shù)也有著很多技術(shù)和社會(huì)性方面的難題與挑戰(zhàn)。包括汽車硬件的升級(jí)換代,深度學(xué)習(xí)算法的改進(jìn),社會(huì)交通規(guī)則的變更,目前特斯拉,華為,小米,蘋(píng)果,美團(tuán)等世界企業(yè)都將目光投入到了無(wú)人駕駛技術(shù)中。我們相信,未來(lái)的數(shù)年內(nèi),無(wú)人駕駛技術(shù)必將真正登上歷史的舞臺(tái),并推動(dòng)整個(gè)人類社會(huì)邁入新的科技紀(jì)元。
5.參考文獻(xiàn):
[1]http://gitbook.cn/gitchat/activity/5b91078c41c7575ca0d6441a
[2]張?jiān)略? 淺析無(wú)人駕駛中的計(jì)算機(jī)視覺(jué)[J]. 衛(wèi)星電視與寬帶多媒體,2019,(20):43-44.
[3]范志遠(yuǎn),崔田田,王青松. 計(jì)算機(jī)視覺(jué)在無(wú)人駕駛領(lǐng)域的應(yīng)用[J]. 數(shù)碼世界,2020,(05):2.
[4]Harish S Gujjar. A Comparative Study of VoxelNet and PointNet for 3D Object Detection in Car by Using KITTI Benchmark[J]. International Journal of Information Communication Technologies and Human Development (IJICTHD),2018,10(3).
[5]Lin Tsung-Yi,Goyal Priya,Girshick Ross,He Kaiming,Dollar Piotr. Focal Loss for Dense Object Detection.[J]. IEEE transactions on pattern analysis and machine intelligence,2020,42(2).
[6]Long, Jonathan, Evan Shelhamer, and Trevor Darrell. “Fully convolutional networks for semantic segmentation.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2015.
[7]Zhao, Hengshuang, et al. “Icnet for real-time semantic segmentation on high-resolution images.” arXiv preprint arXiv:1704.08545 (2017).
[8]https://github.com/ApolloAuto/apollo
[9]https://github.com/CPFL/Autoware
總結(jié)
以上是生活随笔為你收集整理的浅析CV下的无人驾驶技术的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 达人评测 i3 12100和i5 124
- 下一篇: 矢量图标项目运用