RGB-D Salient Object Detection with Cross-Modality Modulation and Selection
RGB-D Salient Object Detection with Cross-Modality Modulation and Selection
具有跨模態調制和選擇的 RGB-D 顯著目標檢測
一、Motivation
two challenge:
1)如何有效地整合來自 RGB 圖像及其對應的深度圖的互補信息;
2)如何自適應地選擇更多與顯著性相關的特征。
二、Solutions
(1) cross-modality feature modulation (cmFM) 模塊,通過將深度特征作為先驗來增強RGB特征表示,所提出的調制設計通過特征轉換實現了多模態信息的有效整合。
(2) adaptive feature selection (AFS) 模塊,選擇與顯著性相關的特征并抑制劣質特征。 該模塊突出了不同通道特征在自模態和跨模態中的重要性,同時以門控方式融合了多模態空間特征。
(3) saliency-guided position-edge attention (sg-PEA) 模塊,強調與顯著性相關的位置和邊緣,該模塊從預測的顯著性圖和顯著性邊緣圖中收集其注意力權重。
上述模塊作為一個整體,稱為 cmMS 塊,有助于以粗到細的方式細化顯著性特征。再加上自下而上的推理,精細的顯著性特征可實現準確且邊緣保留的 SOD。
三、Methods
????????輸入是RGB圖像及其depth圖。輸入到VGG的5個 level 的 backbone 里面,將每個level的特征分別輸入到cmMS(跨模態調制和選擇)模塊中來進行跨模態信息的融合以及調制和優化。同時,它是一個由低到高的形勢下進行的多級串聯,得到最終的預測結果。
????????cmMS模塊由cmFM模塊,AFS模塊和sg-PEA模塊組成。這里,sg-PEA模塊還包含一個S-Pre和一個E-Pre。
? ? ? ? 首先,通過cmFM跨模態特征調制來融合跨模態特征調制,通過AFS自適應特征選擇模塊來選擇出與顯著性相關的特征來進行最終的預測。最后,通過S-pe和E-pe(位置和邊緣)的顯著性引導的注意力機制來細化強調準確定位和邊緣,最終得到 level 的顯著圖。
‘Conv n’ 表示輸出 n 個特征圖的卷積層,其中 n 是輸入特征圖的一半(降維)。. “A”、“M”和“C”分別表示元素加法、元素乘法和連接以及通道維度?!癠p”表示向上采樣塊。粉線表示 2× 線性插值。Fs 表示 cmMS 塊之后的細化特征,而 Fsup 是Fs經過“Up”塊的上采樣結果。在這個圖中,每個卷積層后面都是 ReLU 激活。我們的網絡最終生成了 5 個顯著性圖(SmapL)和 5 個顯著性邊緣圖(SedgeL),分辨率范圍為 14×14 到 224×224,比例為 2。L 表示級別。我們將Smap1視為最終結果。
?????????在傳統的RGB 和 depth 的融合過程,一般情況下是通過級聯或者是相加或者相乘的方式來簡單的堿性融合。
? ? ? ? 在這篇論文中,對整個SOD任務來說,depth特征相對于RGB特征是輔助信息,作者希望通過depth的特征對RGB 特征進行增強,所以把depth 特征做成調制的形式來得到仿射變換的系數和來對RGB的特征進行增強。
?具體過程,把RGB和depth特征輸入到cmFM模塊中,然后depth學習M的映射,得到?和?兩個仿射變換參數,然后利用這個參數對RGB的特征進行增強,從而得到調制后的特征。
????????有了這樣的一些特征之后,包括了RGB特征、depth特征、調制特征和上一級經過cmMS塊最終輸出的(如果有)經過上采樣的高層特征之后,這些特征之間,它們既存在相關性,但是它們也存在大量的冗余,如何去從這些大量的信息中去自適應選擇出與顯著性相關的特征對SOD任務來說是非常重要的。
? ? ? ? 作者就設計了這樣的自適應選擇模塊,在這個部分中,主要包含了兩個方面,一個是空間信息的選擇,另一個是通道信息的選擇。
? ? ? ? 一開始輸入的特征是包含很多模態的,在傳統方法進行通道選擇的時候通??梢圆蓸右恍┩ǖ雷⒁饬Φ姆绞?#xff0c;在本文中,作者構建了一種 channel attention on channel attention的一種形式,不僅需要建模輸入特征的每一單模態上的通道之間的相互依賴關系,同時還希望這樣的選擇過程可以建模不同的跨模態之間的相關性,所以,首先,把不同模態的特征經過SE-Net網絡提取通道注意力,然后將多個模態輸出的特征進行級聯,之后再經過注意力機制來進行多模態之間的通道之間的特征建模和提取,這樣,就形成了人CA-on-CA的通道選擇的部分。
?????????除了要選擇有利的通道來進行SOD外,還需要保持空間特征的一些有效信息,所以提出了這樣一種空間選擇過程把它建模成一個門控注意力引導的多模態信息融合過程。首先把跨模態特征級聯之后來學習像素級的權重,然后在權重的引導下,將不同模態的信息進行加權融合,來保留下更加反應顯著性信息的特征。
? ? ? ? 最后將通道特征和空間特征進行級聯之后,最終得到與顯著相關的特征。
? ? ? ? 最后,有了這樣一些特征之后,我們還需要約束網絡能夠精準的定位顯著目標,同時預測結果具有比較清晰的形式,所以引入了一個顯著性引導的位置和邊緣的注意力模塊,它們是共享相同的網絡來約束生成更加完整的顯著圖和更加清晰的邊緣圖。
?
?????????它的具體過程,首先把RGB特征、depth特征、調制特征和高級特征首先經過邊緣預測過程(E-pre)得到SedgeL顯著邊緣圖,之后把選擇之后的特征利用上個level生成的saliency作為注意力的信息,對當前選擇出來的AFS的輸出進行修正,然后得到更加關注顯著性目標的F^poa L 特征。
? ? ? ? 然后,再利用剛才生成的顯著邊緣特征SedgeL作為注意力的加權來對空間位置特征修正,得到用于顯著性檢測的F SL特征,最后,特征經過S-pre顯著預測得到當前level最終顯著圖。
? ? ? ? 如上圖,邊緣信息和背景得到抑制。
總結
以上是生活随笔為你收集整理的RGB-D Salient Object Detection with Cross-Modality Modulation and Selection的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 企业即时通讯软件有哪些功能?对企业有什么
- 下一篇: 2014网络红人彭伟个人资料及照片