Dynamic Selective Network for RGB-D Salient Object Detection
Dynamic Selective Network for RGB-D Salient Object Detection
用于 RGB-D 顯著目標檢測的動態選擇網絡
IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 30, 2021
一 Motivation
通過各種融合策略來整合RGB圖像和深度圖。忽略了兩種模式之間的固有差異,這導致在處理一些具有挑戰性的場景時性能下降。
二 Solution
動態選擇網絡 (DSNet),通過充分利用兩種模態之間的互補性來執行rgb-d圖像中的顯著目標檢測 (SOD)。
1. 部署一個跨模式全局上下文模塊 (CGCM) 來獲取高級語義信息,該信息可用于粗略定位顯著對象。
2. 設計了一個動態選擇模塊 (DSM) 來動態挖掘RGB圖像和深度圖之間的跨模態互補信息,并通過分別執行門控和基于池化的選擇來進一步優化多級和多尺度信息。
3. 進行邊界細化以獲得具有清晰邊界細節的高質量顯著性圖。
三 網絡框架
3.1 動態選擇網絡DSNet整體架構
典型的編碼器-解碼器架構
編碼器:骨干網絡采用ResNet50,5個卷積塊,分別下采樣了2,4,8,16,16倍,轉換通道數從64,256,512,1024,2048到64,128,256,512,512
解碼器:動態選擇模塊DSM(跨模態注意模塊CAM,雙向門控池化模塊BGPM),跨模態全局上下文模塊CGCM,
具體過程:將深度圖轉換為和RGB一樣的三通道,作為模型的輸入,從ResNet50骨干網絡提取每一級的紋理和幾何特征,然后將每一層的提取的兩個特征送到CAM模塊(跨模態注意模塊),它的作用是 動態整合不同模態互補信息.....
3.2 跨模式全局上下文模塊(CGCM)
CGCM模塊?因為高級特征包含豐富的語義信息,可以有效表征全局信息,為了充分整合不同模態之間的高級語義信息,將RGB流和深度流提取的第5層的兩個特征送到CGCM模塊,實現粗略定位顯著對象。具體是兩個不同模態的特征將channel轉換為1,其中kernel size的大小為1,stride為1 ,然后使用Sigmoid激活函數與對方輸入矩陣相乘,叫做“模態間注意機制”,然后采用Conv-ReLU-Conv增強兩個特征,再激活再與對方原始輸入逐元素相乘,叫做“模態內注意機制”,最后將得到的兩個特征拼接起來得到混合特征,再通過空間注意力機制,整個過程可以表示為
3.3 動態選擇模塊 (DSM)
DSM作用是自動選擇和合并跨模態特征(RGB圖和深度圖),自主優化和加強跨層次和多尺度的深度特征,DSM由兩個子模態構成,CAM和BGPM
3.3.1跨模態注意模塊CAM
CAM模塊CAM作用是探索RGB圖和深度圖兩個模態的相關性,突出空間特征并融合跨模態特征。?
具體過程,將每一層得到的兩個特征送到CAM模塊進行融合。如上圖所示,首先將兩個特征相加起來,再將得到的特征與原始輸入進行拼接,可以表示為
?設置了7個不同的并行卷積層,s代表步長,p表示填充,d為膨脹系數,特別是,我們使用shortcut分支來保留原始信息。 同時,參考[40]的架構,我們同時使用全局最大池化操作和全局平均池化操作來計算空間統計。 不同之處在于我們生成了一個包含八個元素的向量 FLS,以匹配并行卷積層的數量(包括快捷分支)。 然后,我們通過自適應選擇優化跨層深度特征,公式為:
為了加強空間結構特征,我們再次采用空間注意力機制,將 Sigmoid 函數替換為 Tanh 函數,以擴大前景特征和背景特征之間的差距,抑制背景區域,突出顯著區域。 整個計算過程實現為?
?
3.3.2 雙向門控池化模塊BGPM
比較復雜,就不進行研究了
BGPM模塊?
?
總結
以上是生活随笔為你收集整理的Dynamic Selective Network for RGB-D Salient Object Detection的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 在Ubuntu18.04.3系统中安装谷
- 下一篇: 图纸上标注的是实际尺寸吗_CAD或工程图