CVPR 2020 | 自适应聚合网络AANet:更高效的立体匹配
??
?PaperWeekly 原創 ·?作者|張承灝
單位|中科院自動化所碩士生
研究方向|雙目深度估計
本文介紹的是中科大團隊在 CVPR 2020 上提出的一種高效立體匹配網絡——自適應聚合網絡 AANet,它由兩個模塊組成:同尺度聚合模塊(ISA)和跨尺度聚合模塊(CSA)。AANet 可用來代替基于匹配代價體(cost volume)的 3D 卷積,在加快推理速度的同時保持較高的準確率。
?
?
論文標題:AANet: Adaptive Aggregation Network for Efficient Stereo Matching
論文地址:https://arxiv.org/abs/2004.09548v1
開源代碼:https://github.com/haofeixu/aanet
Introduction
在基于深度學習的立體匹配方法中,以 GC-Net [1] 為代表的基于 3D 卷積的方法逐漸成為主流,它是由左右圖的特征經過 cancat 得到一個 4D 的 cost volume,之后利用 3D 卷積進行代價聚合得到最終的視差圖。
近兩年來以此框架為基礎的模型在 KITTI 等數據集上成為新的 state-of-the-art,例如 PSMNet [2],GA-Net [3] 等。
這些方法估計的視差雖然準確率高,但是存在兩個參數量和內存占用量高的地方,
cost volume 是一個 H×W×D×C 的 4D 張量,具有較高的參數量;
利用 3D 卷積進行代價聚合,計算量較大;
AANet 主要用來解決上述兩個方面,從而提升深度立體匹配網絡的效率。
Methods
上圖是 AANet 的整體框架圖。給定一對雙目圖像,首先通過共享特征金字塔網絡(類似 ResNet+FPN)提取 1/3,1/6 和 1/12 分辨率的特征,之后對三種分辨率的左右圖特征分別經過correlation操作,得到多尺度的 3D 匹配代價。
接著經過 6 個堆疊的 AAModules 進行代價聚合,最后利用 soft argmin 操作回歸視差圖。AANet 可以得到三個尺度的輸出,在上采樣為原圖尺度時還采樣了 StereoDRNet [4] 中的精修模塊。
這里,AAModules 由 3 個同尺度聚合模塊(ISA)和一個跨尺度聚合模塊(CSA)組成,下面重點介紹這兩個模塊。
2.1 Adaptive Intra-Scale Aggregation (ISA)
同尺度聚合指的是只對相同分辨率的 cost volume 進代價聚合,來源于傳統立體匹配方法中的局部代價聚合:
其中 是在像素點 q 處,視差為 d 的經過聚合的匹配代價,像素點 q 屬于p點的鄰接像素點;而 是在像素點 q 處,視差為 d 的原始匹配代價, 是聚合權重。
傳統的局部代價聚合不能處理視差不連續的情況,容易造成物體邊緣和細微結構的粗大邊緣問題(edge-fattening)。盡管基于深度學習的方法能夠自動地學習權重 w,但是它們也還是采用固定窗口的規則卷積,并不能自適應地進行特征采樣。
為了解決上述問題,作者提出采用基于稀疏點的特征表示能夠更高效地進行代價聚合,并借鑒可變形卷積來改進代價聚合,提出了自適應的同尺度聚合模塊(ISA):
其中 是聚合后的代價, 是采樣點的數量(K=3), 是第 k 個點的聚合權重, 是像素點的固定偏置,而 是學習的附加正則化偏置。 類似可變形卷積的調制機制,用來調整聚合權重 。
和 可以由單獨的卷積層實現,整個 ISA 模塊由 3 個卷積和一個殘差模塊組成,類似 ResNet 中的 bottlemneck,三層分別是 1×1,3×3 和 1×1,其中 3×3 是可變形卷積。
上圖是兩個區域(綠色)的采樣點(紅色)分布情況,(a)在邊緣處采樣集中在相似的視差區域,(b)在大塊無紋理區域,采樣點成散落狀分布。這表明了自適應聚合的優勢。
2.2 Adaptive Cross-Scale Aggregation(CSA)
對于無紋理或者弱紋理區域,利用下采樣得到的粗糙尺度更能提取具有判別性的特征,但是對于一些細節特征,又需要較高分辨率的視差預測,因此多尺度聚合是一種常用的聚合方法。
作者借鑒傳統的跨尺度聚合方法,將其近似表達為:
其中 S 是經過跨尺度聚合后的 cost volume,而 是在第 k 個尺度經過 ISA 聚合后的 cost volume, 是使得 cost volume 能夠自適應地在多個尺度聚合的通用函數表示形式。
作者將 以 HRNet [5] 的形式實現(HRNet 是用于姿態估計的模型),其具體構成為:
其中 表示恒等映射函數, 用來和 下采樣分辨率保持一致,而 表示雙線性上采樣到相同分辨率,之后接 1×1 卷積對齊特征通道。
這一整套構成了 CAS 模塊,具體的可視化連接方式可以參考 HRNet,簡單來說是每個尺度特征都收到來自其他各層的特征,并統一到該層的分辨率融合。
2.3 Loss Function
和以往直接采用預測視差和視差 GT 作 smooth L1 loss 不同,作者認為像 KITTI ?這樣的數據集只提供了稀疏的標簽,可以使用已經訓練好的模型先進行偽標簽標注,從而得到密集的標簽信息,用來彌補真實標簽沒有標注的地方。
作者采用 GA-Net 進行偽標簽標注,第 i 層的損失函數為:
其中 為第 i 層的視差輸出, 為 ground truth 視差, 為 GA-Net 標注的偽標簽, 是一個二值掩碼,用來標記有效像素點。即 GT 標注的視差用 GT,GT 沒有標注的視差用偽標簽。
最終的 loss 為, 為損失權重:
Experiments
作者采用了 KITTI 2012、KITTI 2015 和 SceneFlow 數據集進行實驗。
3.1 Ablation Study
首先作者做了消融分析,驗證 ISA 和 CSA 模塊的有效性。
由上表可以看出,結合了 ISA 和 CSA 的 AANet 在兩個數據集上表現最佳。
從上圖的定性可視化看,在弱紋理區域能夠得到更銳化和細致的結果。
3.2 Comparison with 3D Convolutions
作者和有代表性的 4 個模型進行了比較,其他 4 個模型都采用了 3D 卷積。將這 4 個模型的 backbone 換成一樣,再將 3D 卷積換成 AANet 的 ISA 和 CSA 模塊,構成 XX-AA 模型。
從上表結果可以看出,除了 GA-Net,其他具備 AANet 模塊的模型準確率都高一些。并且從參數量,計算量和內存占用量以及運行時間上都有降低,可見 AANet 的確讓立體匹配更加高效。
3.3 Benchmark Results
上表是在 KITTI 2012 和 KITTI 2015 上的結果,相比于精度高的模型,AANet 速度最快;相比于速度快的模型,AANet 精度最高,是一個不錯的 trade-off。
Conclusion
3D 卷積的確是基于 cost volume 立體匹配方法的痛點,想要讓立體匹配更高效,少用或者不用 3D 卷積是一個很好的解決思路。從立體匹配提速角度看,之后的研究可以從如何替代 3D 卷積,或者如何減少 3D 卷積的入手。
從其他相似領域角度看,如何將這種思路應用到高分辨率立體匹配,多視角立體視覺(MVS),光流估計,基于雙目的 3D 檢測等領域。
參考文獻
[1] Alex Kendall, Hayk Martirosyan, Saumitro Dasgupta, Peter Henry, Ryan Kennedy, Abraham Bachrach, and Adam Bry. End-to-end learning of geometry and context for deep stereo regression. In CVPR 2017.
[2] Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereo matching network. In CVPR 2018.
[3] Feihu Zhang, Victor Prisacariu, Ruigang Yang, and Philip HS Torr. Ga-net: Guided aggregation net for end-to-end stereo matching. In CVPR 2019.
[4] Rohan Chabra, Julian Straub, Christopher Sweeney, Richard Newcombe, and Henry Fuchs. Stereodrnet: Dilated residual stereonet. In CVPR 2019.
[5] Ke Sun, Bin Xiao, Dong Liu, and Jingdong Wang. Deep high-resolution representation learning for human pose estimation. In CVPR 2019.
?
點擊以下標題查看更多往期內容:?
從近年CVPR看域自適應立體匹配
雙目深度估計中的自監督學習概覽
用于深度立體匹配的自適應單峰匹配代價體濾波
多目標跟蹤領域近期值得讀的幾篇論文
CVPR 2020最新熱點:物體位姿估計
對比學習(Contrastive Learning)相關進展梳理
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
?
總結
以上是生活随笔為你收集整理的CVPR 2020 | 自适应聚合网络AANet:更高效的立体匹配的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 消息称极氪国庆期间新增大定破万,极氪 7
- 下一篇: 没有激活的银行卡能打钱进去么