CVPR2020论文解读:三维语义分割3D Semantic Segmentation
CVPR2020論文解讀:三維語義分割3D Semantic
Segmentation
xMUDA: Cross-Modal Unsupervised Domain Adaptation
for 3D Semantic Segmentation
摘要
無監督域自適應(UDA)對于解決新域中缺少注釋的問題至關重要。有許多多模態數據集,但大多數UDA方法都是單模態的。在這項工作中,我們探索如何從多模態學習,并提出跨模態UDA(xMUDA),其中我們假設存在二維圖像和三維點云進行三維語義分割。這是一個挑戰,因為這兩個輸入空間是異構的,并且可能受到域移動的不同影響。在xMUDA中,模態通過相互模仿相互學習,脫離分割目標,防止強模態采用弱模態的錯誤預測。利用最近的自動駕駛數據集,評估新的UDA方案,包括白天到晚上、國家到國家和數據集到數據集。xMUDA在所有測試場景上都比單峰UDA有很大的改進,并且是對最新UDA技術的補充。
創新點:
Unsupervised Domain Adaptation.
在過去的幾年中,人們對無監督的領域適應技術越來越感興趣,這些技術可以用于復雜的感知任務,如目標檢測和語義分割。
雖然大多數現有的作品考慮的是2D世界中的UDA,但很少有人處理3D世界中的UDA。吳等人
[32]在激光雷達點云的三維分割中,對UDA采用了激活相關對齊[19]。在這項工作中,本文研究了相同的任務,但不同的是:系統對多模態輸入數據(即RGB+LiDAR)進行操作。
在多模態場景的2D/3D語義分割方面,目前還沒有UDA的研究成果。只有一些人考慮到額外的模式,例如深度,僅在源域上的訓練時間可用,并利用這些特權信息來提高適應性能。否則,這里假設所有模式在訓練和測試時間在源域和目標域上都可用。
Multi-Modality Learning.
在有監督的設置中,通過融合來自多個源的特征,可以自然地提高性能。幾何上最簡單的情況是RGB深度融合與密集的像素到像素的二維分割對應[9,26]。將三維點云與二維圖像融合起來比較困難,因為它們生活在不同的度量空間中。一種解決方案是將二維和三維特征投影到“鳥瞰圖”中進行目標檢測[18]。另一種可能性是將多視圖圖像中的二維特征提升到三維點云,以實現三維語義分割的二維-三維聯合處理[23、14、3]。本文更接近于上一系列的工作:共享三維語義分割的相同目標。然而,我們關注的是如何利用多模態來代替有監督的學習,并且只使用單視圖圖像及其對應的點云。
3D networks for semantic segmentation.
雖然圖像是稠密的張量,但三維點云可以用多種方式表示,從而導致相互競爭的網絡族并行演化。體素與像素非常相似,但由于大多數體素是空的,因此記憶非常強烈。Graham等人[8] 類似的實現[4]通過使用哈希表僅對活動體素卷積來解決這個問題。這允許非常高的分辨率,通常每個體素只有一個點。基于點的網絡在連續的三維空間中執行計算,因此可以直接接受點云作為輸入。PointNet++[21]使用逐點卷積、最大池來計算全局特征和局部鄰域聚集,用于類似CNN的分層學習。在這方面已經提出了許多改進,如連續卷積[29]和可變形核[24]。基于圖的網絡卷積在點云的邊上[30]。在這項工作中,本文選擇Sparse ConvNet[8]作為3D網絡,這是ScanNet基準上的最新技術[5]。
3.xMUDA
跨模態UDA(xMUDA)的目的是通過在模態之間進行受控信息交換來利用多模態,使模態之間相互學習。在下面,我們定義了基本的監督學習設置,我們的跨模態損失LxM,和附加的偽標簽學習方法。loss流量如圖3所示。
Supervised Learning
可以將每個網絡流(2D和3D)的分段損失Lseg寫為:
Cross-Modal Learning
跨模式無監督學習的目標有兩個。首先,我們要在目標數據集上將知識從一種模式轉移到另一種模式。其次,要在源和目標上設計一個輔助目標,任務是估計其他模態的預測。
選擇交叉模塊LxM的KL發散角,并按如下定義:
每個網絡流(2D和3D)的完整優化目標是源上的分段損失Lseg和源上和目標上的交叉模塊LxM的組合:
Self-training with Pseudo-Labels
跨模態學習是對偽標記策略[15]的補充,偽標記策略最初用于半監督學習,最近用于UDA[17,34]。具體來說,一旦用公式4優化了一個模型,我們就提取出偽標簽,根據預測的類別概率選擇高度機密的標簽。然后,使用生成的偽標簽從頭開始訓練,以便在目標訓練集上附加分段損失。實際上,優化問題:
- Experiments
在三個提出的跨模態UDA方案上評估xMUDA,并與art-uni-modal UDA方法的狀態進行比較[17]。表1報告了在3個UDA方案的目標測試集上3D分割的平均交并(mIoU)結果。
定性結果如圖6所示,顯示了xMUDA在所有擬議UDA方案中的通用性。圖7描繪了各個2D/3D輸出,以說明它們各自的強項和弱點,例如,在夜間3D的工作比2D好得多。本文還提供了A2D2到semanickittiscenariottp://tiny.cc/xmuda的視頻。
Extension to Fusion
前面展示了如何使用xMUDA改進每種成像方式,因此,softmax平均值也隨之增加。然而,如何通過二維和三維特征融合來獲得盡可能好的效果呢?
一種常見的融合架構是后期融合,其中來自不同來源的特征被連接起來(參見圖4a)。然而,對于xMUDA,需要在特征中獨立于模態,否則模擬任務變得微不足道。因此,本文提出xMUDA融合(參見圖4b),其中每個模態具有用于模擬融合預測的單模態預測輸出。
在表2中,展示了不同融合的結果。“xMUDA Fusion w/o PL”由于跨模態學習而優于普通的Fusion。
Segmentation Heads
在下面,我們證明了我們的設計選擇兩個分割頭的永久流,而不是一個單一的方法(見圖5a)。在單頭架構中,模擬目標直接應用于兩個主要預測之間,這兩個預測導致弱模態概率的增加和強模態的減少,如圖5b中的車輛類別所示。
由于希望對純跨模態學習進行基準測試,因此實驗通常包括無PL的firsttrainingstep。從表3中的結果。xMUDA比單頭結構有更好的性能,而且在選擇好的超參數時也更為可靠,特別是交叉模態損失的重量λt。
- Conclusion
提出xMUDA,跨模態無監督域自適應,其中模態相互學習以提高目標域上的性能。設計了一個具有獨立主頭和模擬頭的體系結構,從跨模態學習目標中分離出分段。在新的UDA場景下利用2D/3D數據集進行3D語義分割的實驗表明,xMUDA在很大程度上優于單峰UDA,是對偽標簽策略的補充。在融合過程中觀察到模擬性能的提高。跨模態學習在很多場合和任務中都是有用的,不僅僅限于UDA。特別是,它應該有利于監督學習和其他方式,而不是圖像和點云。
總結
以上是生活随笔為你收集整理的CVPR2020论文解读:三维语义分割3D Semantic Segmentation的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CVPR2020论文解读:CNN合成的图
- 下一篇: CVPR2020论文解析:实例分割算法