AAAI 2020 开源论文 | 用于深度立体匹配的自适应单峰匹配代价体滤波
?PaperWeekly 原創(chuàng) ·?作者|張承灝
學(xué)校|中科院自動(dòng)化所碩士生
研究方向|深度估計(jì)
本文介紹北航和深動(dòng)科技在 AAAI 2020 上的論文 Adaptive Unimodal Cost Volume Filtering for Deep Stereo Matching,他們在這篇工作中提出給匹配代價(jià)體(cost volume)添加自適應(yīng)單峰分布的真值信息來監(jiān)督,從而提升立體視差估計(jì)的準(zhǔn)確率。?
論文鏈接:https://arxiv.org/abs/1909.03751
源碼鏈接:https://github.com/DeepMotionAIResearch/DenseMatchingBenchmark
立體匹配是一個(gè)經(jīng)典的計(jì)算機(jī)視覺任務(wù),傳統(tǒng)方法主要基于滑動(dòng)窗口來計(jì)算匹配代價(jià)?;谏疃葘W(xué)習(xí)的方法將視差估計(jì)視為回歸問題,這些模型都只在網(wǎng)絡(luò)的最終結(jié)果上計(jì)算損失函數(shù),即預(yù)測的視差值與真實(shí)視差值的誤差。它們忽略了視差回歸的中間產(chǎn)物——匹配代價(jià)體在學(xué)習(xí)中容易產(chǎn)生過擬合,因?yàn)槠ヅ浯鷥r(jià)體是沒有監(jiān)督信息的。
針對這個(gè)問題,作者提出直接給匹配代價(jià)體增加在真值附近的單峰約束,并且設(shè)計(jì)了置信度估計(jì)網(wǎng)絡(luò)來生成單峰分布的方差,用以表示模型在不同紋理區(qū)域下匹配的不確定性。截止 2019.08.20,論文提出的模型 AcfNet 在 KITTI 2012 公開榜單上排名第一,在 KITTI 2015 上排名第四。
研究背景
立體匹配算法分為四個(gè)步驟:匹配代價(jià)計(jì)算,代價(jià)聚合,視差回歸和視差精修。其中,匹配代價(jià)的計(jì)算是至關(guān)重要的一步。根據(jù)匹配代價(jià)計(jì)算方式的不同,可以將基于深度學(xué)習(xí)的視差估計(jì)算法分為兩類。
1. 基于相關(guān)性的匹配代價(jià)計(jì)算。以 DispNetC [1] 為代表,利用相關(guān)層對左右圖像的特征計(jì)算匹配代價(jià),構(gòu)造 3 維的匹配代價(jià)體,最后使用 2D 卷積回歸視差圖。iResNet [2] 通過引入堆疊的精修子網(wǎng)絡(luò)進(jìn)一步提升了性能。?
2. 基于 3D 卷積的匹配代價(jià)計(jì)算,以 GC-Net [3] 為代表,通過將左右圖的特征體進(jìn)行連接來構(gòu)造 4 維的匹配代價(jià)體,最后使用 3D 卷積和可導(dǎo)的”winner takes all (WTA)”策略來得到視差圖。基于此改進(jìn)的 PSMNet [4] 和 GANet [5] 等模型是目前性能較好的網(wǎng)絡(luò)。?
本文屬于第二類方法,基于 PSMNet 對匹配代價(jià)體增加自適應(yīng)的單峰濾波約束,從而使得預(yù)測的代價(jià)匹配體在真值附近能夠得到和真值一致的分布,如圖 1 所示。第 1、3 行分別是 PSMNet 和 AcfNet 預(yù)測的代價(jià)分布,第 2、4 行分別是真值的代價(jià)分布。PSMNet 在真值附近生成了兩個(gè)最小值的峰值,這與真值的分布不符合。而本文的 AcfNet 在真值附近生成了正確的分布。
▲?圖1.?沿匹配代價(jià)體的視差維度展示的代價(jià)分布情況
論文方法
方法概述(Overview)
▲?圖2.?AcfNet的整體框架圖
圖 2 是 AcfNet 的整體框架圖。論文在 PSMNet 的基礎(chǔ)上,提出自適應(yīng)單峰匹配代價(jià)體濾波,它作用于匹配代價(jià)體上。匹配代價(jià)體一方面通過 CENet 得到置信圖,結(jié)合真值視差形成對匹配代價(jià)體進(jìn)行監(jiān)督的單峰分布,另一方面通過 soft argmin 來預(yù)測視差。?
在匹配代價(jià)計(jì)算中,可能的視差分布是 {0, 1, ..., D-1},那么構(gòu)建得到的匹配代價(jià)體的大小即為 H×W×D(高度×寬度×最大視差值)。形式上,對每個(gè)像素包含 D 個(gè)代價(jià)的匹配代價(jià)體定義為?,那么每個(gè)子像素估計(jì)的視差可以通過 soft argmin 得到:
將每個(gè)子像素預(yù)測的視差和真值視差做 smooth L1 loss 使得整個(gè)網(wǎng)絡(luò)模型是可導(dǎo)的,可以進(jìn)行端到端的訓(xùn)練。?
然而,這種監(jiān)督信息還是不夠完善的,可能有無數(shù)種模型權(quán)重來實(shí)現(xiàn)正確的插值結(jié)果。中間產(chǎn)物代價(jià)匹配體由于其靈活性很容易過擬合,因?yàn)樵S多學(xué)習(xí)不正確的匹配代價(jià)體可能會(huì)插值接近真實(shí)的視差值。為了解決這個(gè)問題,根據(jù)匹配代價(jià)體的單峰特性,直接對其進(jìn)行監(jiān)督。
單峰分布(Unimodal distribution)?
匹配代價(jià)體是用來反映候選匹配像素對之間的相似性的,因此真實(shí)的匹配像素對應(yīng)該具有最小的代價(jià),這反映出在真值視差的附近應(yīng)該是單峰分布的,這種單峰分布可以定義為:
這里的 σ 是方差,用來控制分布在峰值附近的尖銳度。但是這樣構(gòu)造的真實(shí)匹配代價(jià)體并不能反映不同像素之間的相似性分布差異,比如桌角上的像素應(yīng)具有非常尖銳的峰,而均勻區(qū)域中的像素應(yīng)具有相對平坦的峰。為了為代價(jià)匹配體構(gòu)建更合理的監(jiān)督信息,作者設(shè)計(jì)了一個(gè)置信度估計(jì)網(wǎng)絡(luò)以自適應(yīng)地預(yù)測每個(gè)像素的?。
置信度估計(jì)網(wǎng)絡(luò)(Confidence estimation network, CENet)?
CENet 實(shí)際上是由兩個(gè)卷積層構(gòu)成,第一層是帶有 BN 和 ReLu 的 3×3 卷積,第二層是帶有 sigmoid 激活的 1×1 卷積用來生成置信圖 。再經(jīng)過尺度縮放得到最終的真值匹配代價(jià)體監(jiān)督信息:
這里非負(fù)的 s 反映的對置信度??的敏感性的比例因子,正數(shù) ε 定義? 的下界,避免了除以 0 的數(shù)值問題。由于置信度越高,其對應(yīng)的匹配代價(jià)體就應(yīng)該越低,所以 ?和 ?是成反比的, 的范圍在 [ε,s+ε]。消融實(shí)驗(yàn)表明 s=1, ε=1 能取得最好的性能。論文中最終的結(jié)果也表明,置信度低的區(qū)域就是紋理較弱和難以匹配的遮擋區(qū)域。
立體焦點(diǎn)損失(Stereo focal loss)?
預(yù)測的匹配代價(jià)體和真實(shí)的匹配代價(jià)體之間存在嚴(yán)重的樣本不均衡,因?yàn)閷γ恳粋€(gè)像素點(diǎn)來說只有一個(gè)視差值是正確的,這是一個(gè)正樣本,其余的均為負(fù)樣本。因此,作者參照用于目標(biāo)檢測的 focal loss,設(shè)計(jì)了 stereo focal loss。
其中 α=0 時(shí)與交叉熵?fù)p失一樣;α>0 時(shí)給視差正樣本賦予更多的權(quán)重。消融實(shí)驗(yàn)表明比標(biāo)準(zhǔn)的交叉熵?fù)p失性能要好。?
最終的損失函數(shù)由三部分構(gòu)成,一是 stereo focal loss;二是預(yù)測視差和真實(shí)視差的回歸損失;三是 CENet 得到的置信度的損失,其表示如下:
實(shí)驗(yàn)結(jié)果
作者在立體匹配的主流數(shù)據(jù)集 Sceneflow,KITTI 2015,KITTI 2012 上進(jìn)行實(shí)驗(yàn),從表 1 可以看到 AcfNet 的性能成為新的 state-of-the-art。圖 3 中最右邊兩列可以看到誤差圖和置信圖很好的對應(yīng)起來,說明 AcfNet 可以給予具有豐富信息的像素較高的置信度,同時(shí)防止信息較少的像素過擬合。圖 4 在 KITTI 15 上的可視化結(jié)果表明 AcfNet 在細(xì)節(jié)信息上優(yōu)于以往 SOTA 模型。
▲?表1.?AcfNet在Sceneflow,KITTI 2015和KITTI 2012上的性能
▲?圖3.?Sceneflow數(shù)據(jù)集上的可視化結(jié)果
▲?圖4.?KITTI 2015數(shù)據(jù)集上的可視化結(jié)果
評價(jià)與思考
本文的創(chuàng)新點(diǎn)比較新穎,關(guān)注的是以往被忽略的匹配代價(jià)體的監(jiān)督問題,從理論上得出匹配代價(jià)體的分布是單峰分布。作者所提出的 CENet 和 stereo focal loss 也直觀而有效。行文寫作簡潔明了,值得學(xué)習(xí)。?
立體匹配方法最大的難點(diǎn)是缺少泛化性能,本文對匹配代價(jià)體的概率分布施加約束,能夠作為輔助的監(jiān)督信息,適用于多種基于匹配代價(jià)體的立體匹配方法。
參考文獻(xiàn)
[1] Mayer, N., Ilg, E., Hausser, P., Fischer, P., Cremers, D., Dosovitskiy, A., Brox, T.: A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 4040–4048 (2016)?
[2] Liang, Z., Feng, Y., Guo, Y., Liu, H., Chen, W., Qiao, L., Zhou, L., Zhang, J.: Learning for disparity estimation through feature constancy. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 2811–2820 (2018)?
[3] Kendall, A., Martirosyan, H., Dasgupta, S., Henry, P.: End-to-end learning of geometry and context for deep stereo regression. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV). pp. 66–75 (2017)?
[4] Chang, J.R., Chen, Y.S.: Pyramid stereo matching network. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 5410–5418 (2018) [5] Zhang, F., Prisacariu, V., Yang, R., Torr, P.H.: Ga-net: Guided aggregation net for end-to-end stereo matching. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 185–194 (2019)
點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?
深度學(xué)習(xí)模型不確定性方法對比
神經(jīng)網(wǎng)絡(luò)中的常用激活函數(shù)總結(jié)
基于無標(biāo)簽單目視頻序列的單幀三維人體姿態(tài)估計(jì)
通過多標(biāo)簽相關(guān)性研究提升神經(jīng)網(wǎng)絡(luò)視頻分類能力
ICCV 2019?| 適用于視頻分割的全新Attention機(jī)制
視頻預(yù)測領(lǐng)域有哪些最新研究進(jìn)展?
#投 稿 通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
?????來稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
???? 投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨(dú)在附件中發(fā)送?
? 請留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們在編輯發(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
▽ 點(diǎn)擊 |?閱讀原文?| 下載論文 & 源碼
總結(jié)
以上是生活随笔為你收集整理的AAAI 2020 开源论文 | 用于深度立体匹配的自适应单峰匹配代价体滤波的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 弢字怎么读?
- 下一篇: 浅谈个性化推荐系统中的非采样学习