显著性检测学习笔记(3):CPFP_CVPR_2019
Contrast Prior and Fluid Pyramid Integration for RGBD Salient Object Detection
- 1 簡介
- 1.1 github:
- 1.2 動機和貢獻
- 2 提出的模型
- 2.1 Feature-enhanced module(FEM)
- 2.1.1 Contrast-enhancedNet(CEN)
- 2.1.2 Cross-modal Fusion
- Fluid Pyramid Integration(FPI)
- 消融試驗
- 總結
1 簡介
這是一篇程明明團隊在2019年cvpr上發(fā)表的RGB-D顯著性檢測文章。超越了此前的9個SOTA方法。
1.1 github:
https://github.com/JXingZhao/ContrastPrior
1.2 動機和貢獻
文章認為RGBD顯著性檢測面臨兩大挑戰(zhàn):1.缺乏高質量的深度圖。并且深度圖的噪聲更大,且沒有紋理。也沒有像ImageNet這樣的大規(guī)模深度圖數(shù)據(jù)集,缺乏訓練良好的BACKBONE
2.多尺度交叉模型融合是次優(yōu)的。depth和RGB有非常不同的屬性,例如綠色和草有很大的相關性,但是深度圖沒有。因此做出一個有效的多尺度融合模型是困難的。
貢獻:
1.設計了一種對比度損失來應用于對比度先驗,該先驗已被廣泛用于基于非深度學習的方法中,用于增強深度圖。 基于RGBD的SOD模型成功利用了傳統(tǒng)對比技術和深層CNN功能的優(yōu)勢。
2.提出了一種流體金字塔集成策略,以更好地利用多尺度交叉模式特征,其有效性已通過實驗驗證。
2 提出的模型
框架的整體模型如下圖:
Feature-enhanced module(FEM)和fluid pyramid integration 被應用在VGG-16中。
2.1 Feature-enhanced module(FEM)
為了調制深度信息,文章提出了一種新穎的FEM模型。FEM由一個ContrastEnhanceNet 和一個 Cross-Modal Fusion strategy 組成。FEM獨立于RGB主干網(wǎng)絡,FEM模塊穿插在每一個卷積塊的輸出后面去獲得增強特征。
2.1.1 Contrast-enhancedNet(CEN)
首先,增強的圖應與前景和背景對象的原始深度圖保持一致。因此,對于生成的增強圖,前景對象分布損失 lf 和背景分布損失 lb 可以表示為Eqn.1:lf=?log?(1?4?∑(i,j)∈F(pi,j?p^f)2Nf)lb=?log?(1?4?∑(i,j)∈B(pi,j?p^b)2Nb)\begin{array}{l}{l_{f}=-\log \left(1-4 * \sum_{(i, j) \in F} \frac{\left(p_{i, j}-\hat{p}_{f}\right)^{2}}{N_{f}}\right)} \\ {l_{b}=-\log \left(1-4 * \sum_{(i, j) \in B} \frac{\left(p_{i, j}-\hat{p}_{b}\right)^{2}}{N_{b}}\right)}\end{array} lf?=?log(1?4?∑(i,j)∈F?Nf?(pi,j??p^?f?)2?)lb?=?log(1?4?∑(i,j)∈B?Nb?(pi,j??p^?b?)2?)?
F 和 B 是真值圖的顯著目標區(qū)域和背景。 Nf 和 Nb 分別表示顯著物體和背景中的像素數(shù)。類似地, p^f\hat{p}_{f}p^?f? 和p^b\hat{p}_{b}p^?b?分別表示增強圖的前景和背景中的值的平均值Eqn.2:p^f=∑(i,j)∈Fpi,jNf,p^b=∑(i,j)∈Bpi,jNb\hat{p}_{f}=\sum_{(i, j) \in F} \frac{p_{i, j}}{N_{f}}, \hat{p}_{b}=\sum_{(i, j) \in B} \frac{p_{i, j}}{N_{b}} p^?f?=(i,j)∈F∑?Nf?pi,j??,p^?b?=(i,j)∈B∑?Nb?pi,j??
Eqn.1 對顯著目標和背景的方差進行建模以提升和原depth圖的一致性。一個sigmoid層用來把CEN的輸出壓縮到[0,1]。因此,內部的最大方差為0.25,所以在Eqn.1中將方差 × 4 是為了確保 log 函數(shù)的范圍在0~1之間。
接著, 應增強前景物體與背景物體之間的對比。 因此,我們將整個深度圖像分布損失 lw 定義為Eqn.3:
lw=?log?(p^f?p^b)2l_{w}=-\log \left(\hat{p}_{f}-\hat{p}_{b}\right)^{2} lw?=?log(p^?f??p^?b?)2
通過對均差進行建模,可以確保前景目標和背景的對比度盡可能大。p^f\hat{p}_{f}p^?f?和p^b\hat{p}_{b}p^?b?在0到1之間,因此log函數(shù)中的參數(shù)值范圍從0到1。
最后,對比度損失lc可以表示為 Eqn.4 :lc=α1lf+α2lb+α3lwl_{c}=\alpha_{1} l_{f}+\alpha_{2} l_{b}+\alpha_{3} l_{w} lc?=α1?lf?+α2?lb?+α3?lw?其中,α1 ,α2 和α3是預定義參數(shù),文章說建議分別定位5,5,1。
增強后的圖片,相比于原來的深度圖對比度更高,前、后景分布更為均勻。
2.1.2 Cross-modal Fusion
Cross-modal Fusion 是增強模塊的一個子模塊,用于通過增強的depth圖來調制RGB特征。單通道增強圖的作用類似于注意圖,具體來說,我們將每個塊的RGB特征圖乘以增強的深度圖,以增強顯著區(qū)域和非顯著區(qū)域之間的特征對比度。用殘差鏈接來保留原始RGB的特征。 這些特征圖為增強特征F~\tilde{F}F~,其計算公式為 Eqn.5:F~=F+F?DE\tilde{F}=F+F \otimes D_{E} F~=F+F?DE?
其中,FFF 是原始RGB特征,DED_{E}DE?是增強后的深度圖 ?\otimes? 表示逐像素相乘。通過將增強功能的模塊插入每個塊的末端,分別獲得五個不同尺度的增強功能,分別為F1~\tilde{F_1}F1?~?~F5~\tilde{F_5}F5?~?
Fluid Pyramid Integration(FPI)
feature compatibility(特征兼容)是處理跨模式信息的關鍵,而Fluid Pyramid Integration(FPI) 可以很好的確保這一點。
具體來說,金字塔有5層。第一層由5個節(jié)點組成,并且每個節(jié)點都是一系列不同尺度的增強特征。然后,通過把F2~\tilde{F_2}F2?~?~F5~\tilde{F_5}F5?~?上采樣到和F1~\tilde{F_1}F1?~?相同尺寸并且把這些上采樣特征累加在一起,構造第二層的第一個節(jié)點。類似的,把 F3~\tilde{F_3}F3?~?~F5~\tilde{F_5}F5?~?上采樣到和F2~\tilde{F_2}F2?~? 一樣的尺寸,并且把這些特征累加在一起,來構造第二層的第二個節(jié)點。
Fluid Pyramid Integration(FPI)在多尺度級別和跨模式級別都集成了信息。
總的loss LLL為,Eqn.6:
L=ls+∑i=15lciL=l_{s}+\sum_{i=1}^{5} l_{c_{i}} L=ls?+i=1∑5?lci??
其中 lsl_s~ls?? 是預測圖和真值圖之間的 cross-entropy loss 。 lcil_{c_{i}}lci??是第iii個特征增強模塊的對比度損失contrast loss,contrast loss 在之前已經(jīng)寫過,cross-entropy loss定義為Eqn.7:
lf=Ylog?P+(1?Y)log?(1?P)l_{f}=Y \log P+(1-Y) \log (1-P) lf?=YlogP+(1?Y)log(1?P)
其中PPP和YYY分別代表預測圖和真值圖。
消融試驗
不同的融合模型:
試驗對比:
總結
這篇文章的關鍵在于FEM,通過不斷的增強每一個VGG模塊輸出的特征,增強深度圖的對比度,并且不斷的疊加每一個level的特征,從而引導RGB圖生成salient image。這個增強模塊可以拿去用用試試。至于Fluid Pyramid Integration,是融合不同level的好的策略,對于既需要空間信息,又需要語義特征的情況應該很好用。
總結
以上是生活随笔為你收集整理的显著性检测学习笔记(3):CPFP_CVPR_2019的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ADODB 入门学习基础教程[多图]
- 下一篇: fanuc c语言编程实例,FANUC机