ICCV | 达摩院联合开源融合不确定度的自监督MVS框架
一、論文&代碼
論文鏈接:Digging into Uncertainty inSelf-supervised Multi-view Stereo
開源代碼:https://github.com/ToughStoneX/U-MVS
二、背景
多視圖立體視覺作為計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)基本的任務(wù),利用同一場景在不同視角下的多張圖片來重構(gòu)3D的信息。如下圖所示:
自監(jiān)督多視角立體視覺(MVS)近年來取得了顯著的進(jìn)展。然而,以往的方法缺乏對自監(jiān)督MVS中pretext任務(wù)提供的監(jiān)督信號進(jìn)行有效性的全面解釋。本文首次提出在自監(jiān)督MVS中估計(jì)認(rèn)知不確定性(epistemic uncertainty)。具體而言,信號不確定可分為兩類:前景的監(jiān)督信號模棱兩可性和背景監(jiān)督信號無效性。為了解決這些問題,本文提出了一個新的減少不確定性的多視角立體(U-MVS)自監(jiān)督學(xué)習(xí)框架:1.)本文引入了額外的光流深度一致性損失,利用光流的密集二維對應(yīng)關(guān)系來正則化MVS中的三維立體對應(yīng)關(guān)系,緩解前景監(jiān)督的模凌兩可。2.)為了處理背景的無效監(jiān)督信號,本文使用Monte-Carlo Dropout獲取不確定性映射,進(jìn)一步過濾無效區(qū)域上的不可靠的監(jiān)督信號。
最后通過在DTU和Tank&Temples數(shù)據(jù)集的大量實(shí)驗(yàn)表明,本文提出的U-MVS框架在無監(jiān)督MVS方法中取得了最好的性能,與完全監(jiān)督的MVS方法相比具有相媲美的性能。
2.1 完全監(jiān)督MVS
隨著深度學(xué)習(xí)的蓬勃發(fā)展,在多視角立體視覺領(lǐng)域已經(jīng)出現(xiàn)越來越多的神經(jīng)網(wǎng)絡(luò)方法。作為新型技術(shù)的代表,MVSNet構(gòu)建了端到端的基于神經(jīng)網(wǎng)絡(luò)來進(jìn)行多視角重建的pipeline。首先利用2D的卷積網(wǎng)絡(luò)來獲得多視角圖片的特征,然后運(yùn)用3D CNN對由feature構(gòu)建得到的costvolume進(jìn)行正則化操作,而后基于soft argmin操作回歸得到深度信息。如下圖所示:
為了緩解存儲和計(jì)算3D cost volume消耗大量的資源的壓力,一些方法運(yùn)用coarse-to-fine的機(jī)制將之前單步的cost volume的計(jì)算變?yōu)槎嚯A段的cost volume 計(jì)算。CascadeMVSNet提出基于特征金字塔編碼的cost volume,縮小每個階段的深度(或視差)范圍的預(yù)測,隨著分辨率的逐漸提高和深度(或視差)間隔的自適應(yīng)調(diào)整,輸出coarse-to-fine的深度估計(jì)。如下圖所示:
2.2 無監(jiān)督MVS
此外,完全監(jiān)督學(xué)習(xí)存在一個不可忽視的問題,標(biāo)注large scale的數(shù)據(jù)集對于場景重建來講,需要繁瑣和昂貴的程序。近年來人們致力于發(fā)展自監(jiān)督學(xué)習(xí)來替代有監(jiān)督學(xué)習(xí)。Unsup MVS 利用預(yù)測的深度信息結(jié)合相機(jī)內(nèi)外參數(shù),通過homographywarping來重構(gòu)圖像,并通過減小重構(gòu)圖像和原始圖像之間的差異來優(yōu)化深度信息。如下圖所示:
M^ 3VSNet在Unsup MVS 的基礎(chǔ)上,增加了深度信息和法向的一致性loss來進(jìn)一步優(yōu)化pipiline,而JDACS則利用非負(fù)矩陣分解(Non-Negative-Factorization)來生成Co-Segmentationmaps,借鑒photometric loss,構(gòu)造更魯棒的cross-viewsemantic consistency,同時利用數(shù)據(jù)增強(qiáng)模塊來提升泛化能力。如下圖所示:
之前這些方法都是基于對于自監(jiān)督學(xué)習(xí)的直觀的分析,缺乏對于自監(jiān)督信號有效性的研究和解釋。對于完全監(jiān)督學(xué)習(xí),如Figure 1 (a)所示,有效監(jiān)督信號因?yàn)間round truth的原因是顯性可用的,然而對于自監(jiān)督框架來講,如Figure 1 (b)所示,基于圖像重建的pretext任務(wù)提供的監(jiān)督信號是模糊不確定的,這將直接影響深度估計(jì)的效果。
2.3 核心解決問題
為了更直接地提供監(jiān)督信號的有效性描述,本文利用了Monte-Carlo Dropout方法來可視化epistemic uncertainty,如上圖Figure 1(c)所示。那么不確定性到底可以給我們哪一些啟示呢?
如上圖Figure 2 所示,本文提供了完全監(jiān)督和自監(jiān)督信號的不確定性直觀比較,來加深理解導(dǎo)致自監(jiān)督信號失敗的原因。由圖可知,自監(jiān)督信號相比完全監(jiān)督的信號有更多不確定性,基于自監(jiān)督作為圖像重建任務(wù)的前提,將不確定性歸結(jié)為兩類:第一類為圖像前景中的監(jiān)督信號的模凌兩可性,主要來自于不同視角下像素點(diǎn)的顏色變化以及物體之間的遮擋,導(dǎo)致了reference image和source image的部分像素點(diǎn)沒法很好的匹配;第二類為背景的監(jiān)督信號的無效性,譬如無紋理區(qū)域沒法提供有效信息。
三、方法
3.1 前景監(jiān)督信號
為了解決前景監(jiān)督信號的模凌兩可,本文通過增加額外的先驗(yàn)相關(guān)性來增強(qiáng)自監(jiān)督信號的可靠性,并引入一種新的多視圖中的光流深度一致性損失。如下圖所示:
直觀地說,在自監(jiān)督MVS中,可以利用光流來構(gòu)造圖像對的像素點(diǎn)之間密集的相關(guān)性來正則化3D的相關(guān)性。本文提出了一個可微的Depth2Flow模塊,將視圖間的深度圖轉(zhuǎn)換為虛擬光流。如下圖所示:
RGB2Flow模塊可以無監(jiān)督地預(yù)測相應(yīng)視圖的光流。然后強(qiáng)制虛擬光流和真實(shí)光流保持一致,起到正則化的作用。如下圖所示:
3.2 背景監(jiān)督信號
為了緩解背景信號的無效性,本文建議除去不可靠的監(jiān)督信號在完全無監(jiān)督的情況下。首先使用自監(jiān)督預(yù)訓(xùn)練模型標(biāo)注數(shù)據(jù)集,并用Monte-Carlo-Dropout算法獲取不確定性映射。如下圖所示:
然后利用不確定性映射過濾之后的偽標(biāo)簽對模型進(jìn)行監(jiān)督。同時對輸入的多視圖圖像進(jìn)行隨機(jī)數(shù)據(jù)增強(qiáng),增強(qiáng)有效監(jiān)督區(qū)域?qū)Ω蓴_的魯棒性。如下圖所示:
四、結(jié)果
為了評價本文提出的方法的性能,在DTU數(shù)據(jù)集上進(jìn)行了驗(yàn)證。在Table 1,本文給出了UMVS與最好的(SOTA)完全監(jiān)督/自監(jiān)督和傳統(tǒng)方法的性能對比。從表中可以看出,本文提出的方法比之前的自監(jiān)督方法性能更好。在整體誤差(overall)的指標(biāo)下,當(dāng)前SOTA的完全監(jiān)督方法的性能約為0.351 - 0.355mm。在沒有利用任何ground truth標(biāo)簽的前提下,本文基于CascadeMVSNet的backbone可以在overall達(dá)到0.3537,這與完全監(jiān)督的SOTA相媲美。Figure 5 給出了DTU數(shù)據(jù)集上多個場景的三維重建結(jié)果的定性比較。如下圖所示:
為了評價本文方法的泛化能力,給出了Tanks and Temples數(shù)據(jù)集上(intermediate/advanced)與SOTA的完全監(jiān)督和無監(jiān)督方法的性能比較(Table 4和Table 5)。
如下圖例為Tanks&Temples的intermediate/advancedpartition部分的效果可視化。
五、應(yīng)用
本文模型將在maas上呈現(xiàn),敬請期待。另外給大家介紹下其他域上的開源免費(fèi)模型,歡迎大家體驗(yàn)、下載(大部分手機(jī)端即可體驗(yàn)):
https://modelscope.cn/models/damo/cv_resnet50_face-detection_retinaface/summary
https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary
https://modelscope.cn/models/damo/cv_manual_face-detection_tinymog/summary
https://modelscope.cn/models/damo/cv_manual_face-detection_ulfd/summary
https://modelscope.cn/models/damo/cv_manual_face-detection_mtcnn/summary
https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary
https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary
https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary
https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary
https://modelscope.cn/models/damo/cv_manual_facial-landmark-confidence_flcm/summary
https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary
https://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface/summary
總結(jié)
以上是生活随笔為你收集整理的ICCV | 达摩院联合开源融合不确定度的自监督MVS框架的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ollydbg(避坑-1) jiac
- 下一篇: 决策树之挑选西瓜