图像语义分割_uNetXST:将多个车载摄像头转换为鸟瞰图语义分割图像
作者:Longway
來源:公眾號(hào)@3D視覺工坊
項(xiàng)目地址:https://github.com/ika-rwth-aachen/Cam2BEV
論文地址:https://arxiv.org/pdf/2005.04078.pdf
概述
準(zhǔn)確的環(huán)境感知對(duì)于自動(dòng)駕駛來說是非常重要的,當(dāng)用單目攝像頭時(shí),環(huán)境中的距離估計(jì)是一個(gè)很大的挑戰(zhàn)。當(dāng)攝像機(jī)視角轉(zhuǎn)換為鳥瞰視角(BEV)時(shí),距離能夠更加容易的建立。對(duì)于扁平表面,逆透視映射能夠準(zhǔn)確的轉(zhuǎn)換圖像到BEV。但是對(duì)于三維物體來說,會(huì)被這種轉(zhuǎn)換所扭曲,使得很難估計(jì)他們相對(duì)于傳感器的位置。
這篇文章描述了一種獲取360°鳥瞰圖的方法,這些圖像來自于多個(gè)攝像頭。對(duì)校正后的BEV圖像進(jìn)行語義分割,并預(yù)測(cè)遮擋的部分。該方法不需要手工標(biāo)注數(shù)據(jù),而是在合成數(shù)據(jù)集上面進(jìn)行訓(xùn)練,這樣就能夠在真實(shí)世界表現(xiàn)更好的效果。
介紹
最近,自動(dòng)駕駛受到工業(yè)研究的廣泛關(guān)注。自動(dòng)駕駛的其中一個(gè)關(guān)鍵因素是準(zhǔn)確的感知周圍的環(huán)境,這對(duì)于安全來說至關(guān)重要。
不同的環(huán)境表示通過環(huán)境中的坐標(biāo)信息都能夠被計(jì)算出來,在用于了解環(huán)境的不同類型的傳感器中,攝像機(jī)因其低成本和成熟的計(jì)算機(jī)視覺技術(shù)而流行。由于單目攝像機(jī)只能提供圖像平面上位置的信息,因此可以對(duì)圖像進(jìn)行透視變換。
透視變換是從一個(gè)視角所看到的相同場(chǎng)景的近似,在這個(gè)視角中,成像平面與攝像機(jī)前面的地平面對(duì)齊。將相機(jī)圖像轉(zhuǎn)換為BEV的方法通常稱為逆變換角度映射(IPM)。IPM假設(shè)世界是扁平的,但是任何三維物體都會(huì)違背這一假設(shè),所以不太適用。
盡管IPM引入的錯(cuò)誤是可以校正的,但是仍然需要在BEV中檢測(cè)目標(biāo)。深度學(xué)習(xí)方法對(duì)于語義分割等任務(wù)來說非常有效,但是需要標(biāo)記數(shù)據(jù),盡管模擬可以獲得這些數(shù)據(jù),和真實(shí)數(shù)據(jù)比起來還是有一些差距。從模擬中學(xué)習(xí)到的復(fù)雜任務(wù)到現(xiàn)實(shí)世界的歸納是困難的,為了縮小差距,許多方法都旨在使模擬數(shù)據(jù)更加真實(shí)。
在本文中,作者提出了一種不受IPM下的平度假設(shè)所帶來的誤差影響的BEV圖像獲取方法。通過計(jì)算語義分割的攝像機(jī)圖像,從真實(shí)數(shù)據(jù)中去除大部分不必要的紋理。
通過語義分割的輸入,該算法能夠獲取類信息,從而能夠?qū)⑦@些信息納入IPM生成的圖像的校正中。模型的輸出是輸入場(chǎng)景的語義分段BEV,由于對(duì)象形狀被保留,輸出不僅可以用于確定自由空間,而且可以定位動(dòng)態(tài)對(duì)象。
此外,語義分割的BEV圖像包含了未知區(qū)域的顏色編碼,這些未知區(qū)域被遮擋在原始攝像機(jī)圖像中。IPM得到的圖像和所需的真實(shí)BEV圖像如下圖所示。
這項(xiàng)工作的貢獻(xiàn)如下所示:
1:提出了一種在BEV中能夠?qū)⒍鄠€(gè)車載攝像機(jī)圖像轉(zhuǎn)換為語義分割圖像的方法;
2:使用不同的神經(jīng)網(wǎng)絡(luò)架構(gòu),設(shè)計(jì)并比較了兩種不同的方法,其中一種是專門為這項(xiàng)任務(wù)設(shè)計(jì)的;
3:在設(shè)計(jì)過程中,不需要對(duì)BEV圖像進(jìn)行人工標(biāo)記來訓(xùn)練基于神經(jīng)網(wǎng)絡(luò)的模型;
4:最后展示了一個(gè)成功的實(shí)際應(yīng)用的模型。
相關(guān)工作
許多文獻(xiàn)都說到了視角到BEV的轉(zhuǎn)變,大多數(shù)作品都是基于幾何的,重點(diǎn)是對(duì)地面的精確描繪。只有少數(shù)作品將攝像機(jī)圖像轉(zhuǎn)換成BEV與場(chǎng)景理解的任務(wù)結(jié)合起來。然而,他們卻忽略了物體檢測(cè)可以提供物體幾何形狀的線索,從而使變換受益。最近,一些深度學(xué)習(xí)方法展示了復(fù)雜的神經(jīng)網(wǎng)絡(luò)幫助改進(jìn)經(jīng)典的IPM技術(shù),使其有助于環(huán)境感知。
比如說移除動(dòng)態(tài)和三維物體來提高對(duì)道路場(chǎng)景的理解【1】,或者通過一個(gè)前置攝像頭,合成整個(gè)道路場(chǎng)景的精確BEV表示【2】,這些方法都用到了GAN網(wǎng)絡(luò)。還有很多方法,但是在作者看來,追求將多個(gè)語義分割的圖像直接轉(zhuǎn)換為BEV的想法的唯一來源是一篇博客文章【3】。該文章設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)是一個(gè)全卷積的自編碼器,伴隨著很多缺點(diǎn),比如準(zhǔn)確的目標(biāo)檢測(cè)范圍相對(duì)較低。
方法
該作品基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的使用,但是大多數(shù)的CNNs只處理一個(gè)輸入圖像。為了融合安裝在車輛上的多個(gè)攝像頭的圖像,單輸入網(wǎng)絡(luò)可以將多個(gè)圖像按其通道級(jí)聯(lián)作為輸入。然而,這將導(dǎo)致輸入和輸出圖像之間的空間不一致,卷積層在局部操作。針對(duì)這個(gè)問題的學(xué)習(xí)方法需要能夠處理多視點(diǎn)圖像,這表明需要一種額外的機(jī)制。
就像前面說到的,IPM會(huì)引入誤差,但該技術(shù)至少能夠產(chǎn)生與地面真實(shí)BEV圖像相似的圖像。由于這種相似性,將IPM作為一種機(jī)制來提供輸入和輸出圖像之間更好的空間一致性似乎是合理的。
下面將介紹基于神經(jīng)網(wǎng)絡(luò)的方法的兩種變體,它們都包含IPM的應(yīng)用。在介紹這兩種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)之前,作者詳細(xì)介紹了應(yīng)用的數(shù)據(jù)預(yù)處理技術(shù)。
1、處理遮擋:當(dāng)只考慮輸入域和期望的輸出時(shí),會(huì)出現(xiàn)一個(gè)明顯的難題:交通參與者和靜態(tài)障礙可能會(huì)遮擋部分環(huán)境,使得在BEV圖像中預(yù)測(cè)這些區(qū)域幾乎不可能。舉個(gè)例子,當(dāng)你在卡車后面行駛時(shí),就會(huì)出現(xiàn)這樣的遮擋:卡車前面發(fā)生的情況不能僅從車載攝像機(jī)的圖像可靠地判斷出來。
如何解決這位問題?作者對(duì)于每個(gè)車輛攝像機(jī),虛擬光線從其安裝位置投射到語義分割的地面真值BEV圖像的邊緣。對(duì)沿著這些射線的所有像素進(jìn)行處理,根據(jù)以下規(guī)則確定它們的遮擋狀態(tài):
1.1:一些語義類如建筑、卡車總是阻塞視線;
1.2:一些語義類如道路從不遮擋視線;
1.3:汽車會(huì)擋住視線,但后面較高的物體如卡車、公共汽車除外;
1.4:部分被遮擋的物體仍然完全可見;
1.5:物體只有在所有的相機(jī)透視圖中都被遮擋的情況下才被標(biāo)記為被遮擋。
根據(jù)這些規(guī)則修改的真實(shí)BEV圖像如下圖所示。
2、投影預(yù)處理:IPM技術(shù)作為方法中的一部分,作者推導(dǎo)了汽車攝像機(jī)框架與BEV之間的投影變換,確定了單應(yīng)矩陣涉及的相機(jī)內(nèi)部和外部參數(shù),并應(yīng)在下面簡(jiǎn)要說明。
世界坐標(biāo)xw和圖像坐標(biāo)xi之間的關(guān)系由以下投影矩陣P給出:
投影矩陣將相機(jī)的內(nèi)在參數(shù)如焦距編碼為一個(gè)矩陣K和外參(世界坐標(biāo)系中的旋轉(zhuǎn)R和平移t):
假設(shè)存在從道路平面xr到世界坐標(biāo)系的變換M:
就可以獲得從圖像坐標(biāo)xi到道路平面xr的轉(zhuǎn)換:
設(shè)置該變換作為捕捉與真實(shí)BEV圖像相同的視野。由于這一區(qū)域被所有攝像機(jī)圖像的并集覆蓋,因此它們首先通過IPM分別變換,然后合并成一個(gè)單獨(dú)的圖像,以下稱為單應(yīng)圖像。重疊區(qū)域中的像素,即從兩個(gè)攝像機(jī)可見的區(qū)域,從變換后的圖像中任意選擇一個(gè)。
3、變體1-單輸入模型:作者預(yù)先計(jì)算如上節(jié)所示的單應(yīng)性圖像,以彌補(bǔ)相機(jī)視圖和BEV之間的很大一部分差距。作者在此提供了神經(jīng)網(wǎng)絡(luò)輸入與輸出在一定程度上的空間一致性,網(wǎng)絡(luò)的任務(wù)就是糾正IPM帶來的錯(cuò)誤。
由于單應(yīng)性圖像和期望的目標(biāo)輸出圖像覆蓋相同的空間區(qū)域,作者使用已有的CNNS進(jìn)行圖像處理,這在語義分割等其他任務(wù)上已經(jīng)被證明是成功的。最后作者選擇了DeepLabv3+作為單網(wǎng)絡(luò)輸入的架構(gòu)。
4、變體2-多輸入模型:該模型處理來自車輛攝像頭的所有非轉(zhuǎn)換圖像作為輸入,在未轉(zhuǎn)換的相機(jī)視圖中提取特征,因此不完全受IPM引入的誤差的影響。作為一種解決空間不一致性問題的方法,作者將射影變換集成到網(wǎng)絡(luò)中。
為了構(gòu)建一個(gè)多輸入單輸出圖像的架構(gòu),作者將現(xiàn)有的CNN擴(kuò)展為多個(gè)輸入流,并在內(nèi)部融合這些流。由于其簡(jiǎn)單性和易于擴(kuò)展性,作者選擇了流行的語義分割架構(gòu)U-Net作為擴(kuò)展的基礎(chǔ)。最后簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu)如下所示:
結(jié)果展示
在模擬數(shù)據(jù)集上面的測(cè)試效果
在真實(shí)世界的測(cè)試效果
總結(jié)和思考
作者提出了一種能夠通過多個(gè)車載攝像頭采集到的數(shù)據(jù),獲得道路狀況鳥瞰圖的方法。其中解決了一些不利因素的影響,如前面提到不正確的平面假設(shè)所產(chǎn)生的誤差,并且無需人工標(biāo)記BEV數(shù)據(jù)集,最后產(chǎn)生的效果如上圖所示。
在我看來,這是一項(xiàng)非常棒的工作,對(duì)于自動(dòng)駕駛環(huán)境感知的研究有很大幫助。但是仍然有一些不足,在模擬數(shù)據(jù)集上面的效果和標(biāo)簽相差無幾,在真實(shí)世界的效果卻不是很好。同時(shí)道路交通也是一個(gè)非常復(fù)雜的情況,需要更深層次的研究。
【1】T. Bruls, H. Porav, L. Kunze, and P. Newman, “The Right (Angled) Perspective: Improving the Understanding of Road Scenes Using Boosted Inverse Perspective Mapping,” in 2019 IEEE Intelligent Vehicles Symposium (IV), 2019, pp. 302–309.
【2】X. Zhu, Z. Yin, J. Shi, H. Li, and D. Lin, “Generative Adversarial Frontal View to Bird View Synthesis,” arXiv:1808.00327 [cs], 2019.
【3】M. Dziubinski. (2019, 05) From semantic segmentation to semantic ′ bird’s-eye view in the CARLA simulator. [Online]. Available: https://medium.com/asap-report/from-semantic-segmentationto-semantic-birds-eye-view-in-the-carla-simulator-1e636741af3f
本文僅做學(xué)術(shù)分享,如有侵權(quán),請(qǐng)聯(lián)系刪文。
總結(jié)
以上是生活随笔為你收集整理的图像语义分割_uNetXST:将多个车载摄像头转换为鸟瞰图语义分割图像的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 有百度那味了 微软称正探索在必应聊天中投
- 下一篇: 早报:魅族20系列发布 Redmi No