Multi-scale Interactive Network for Salient Object Detection(用于显著性目标检测的多尺度交互网络)
Abstract
? ? ? ??基于深度學習的顯著性目標檢測方法取得了很大的進步,然而,物體的尺度變化和類別的未知一直是顯著性目標檢測任務的挑戰,這些與多層次和多尺度特征的利用緊密相關。在本文中,提出了聚合交互模塊(tip:本文創新點)來聚合相鄰層的特征,由于整個工程中僅使用較小的上/下采樣率即可因此引入的噪聲較少。為了從聚合特征中獲得更有效的多尺度特征,本文將自交互模塊(self-interaction modules )嵌入每個解碼器單元中。此外,由尺度變化引起的類不平衡問題削弱了二元交叉熵損失的影響,并導致預測的空間不一致。因此,本文利用一致性增強的損失來突出顯示前后差異,并保留類內一致性。最后,在五個基準數據集上的實驗結果表明,與23種最新方法相比,本文方法無需進行任何后處理過程,就具有良好的性能。源代碼地址:?https://github.com/lartpang/MINet.
1、簡介
????????顯著性物體檢測(Salient object detection ,SOD)旨在區分視覺上最明顯的區域。在數據驅動的深度學習方法的幫助下,它正在快速發展,并已應用于許多計算機視覺領域,例如視覺跟蹤,圖像檢索,非照片級渲染,4D顯著性檢測,無參考的合成圖像質量評估等。雖然目前已經取得了很大的進展,但仍有兩個問題需要注意,一是如何從尺度變化的數據中提取更多的有效信息,二是如何提高這種情況下預測的空間一致性。由于顯著區域的尺度不同,基于CNN的方法由于重復的子采樣缺乏必要的細節信息,難以持續準確地分割不同尺度的突出物體(圖1)。另外,考慮到卷積運算固有的本地局部性和交叉熵函數的像素級特征,很難實現物體的均勻顯著性提取。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?圖1:幾個具有大小變化對象的可視化示例及其由提出的MINet、AFNet、? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? CPD和PAGR方法生成的預測
?????????對于第一個問題(如何從尺度變化的數據中提取更多的有效信息),現有方法的主要解決方法是逐層整合較淺的特征。有些方法通過將編碼器中相應層次的特征連接到解碼器中(圖2(a,c,e))。
? ? ? ? 圖2,?不同架構的圖示。綠色塊、橙色塊和灰色塊分別表示編碼器、傳輸層和解碼器中的不同卷積塊。左欄:編碼器和傳輸層之間的連接模式;右欄:傳輸層和解碼器之間的連接模式。?(a, e) FCN [22]; (b)Amulet [51]; (c) BMPM [48]; (d) AIMs (Sec. 3.2); (f) DSS [13];(g) DGRL [34]; (h)SIMs (Sec. 3.3).?
????????單層特征只能表征特定尺度的信息, 在自上而下的路徑中,由于深層特征的不斷積累,淺層特征的細節表示能力被削弱。為了利用多層次特征,一些方法將多層次的特征以全連接的方式或 啟發式/試探 的方式進行整合(圖2(b,f,g))。然而, 過多的特征整合和不同分辨率之間缺乏平衡, 容易導致計算成本高、噪聲多、融合困難, 從而擾亂了后續自上而下路徑的信息恢復。此外,空間金字塔池化模塊(ASPP)和金字塔池化模塊(PPM)被用于提取多尺度的上下文感知特征,并對單層特征表示進行了改進。然而,現有的方法通常是在編碼器后面配備這些模塊,這就導致它們的網絡由于頂層特征的低分辨率的限制而錯過了許多必要的細節。
????????對于第二個問題(如何提高尺度變化這種情況下預測的空間一致性),現有的一些模型[ ?41,27 ]主要使用一個特定的分支或者一個額外的網絡來細化結果。然而,這些方法都面臨計算冗馀和訓練困難的問題,不利于進一步的應用。
????????受Zhang等提出的相互學習思想(《 Deep mutual learning》)的啟發,本文提出了一種聚合交互策略(aggregated interaction strategy,AIM),以更好地利用多層次特征,避免大分辨率差異造成的特征融合干擾(圖2(d)),并且通過協同學習知識引導,有效整合相鄰分辨率的上下文信息。為了進一步從提取的特征中獲得豐富的尺度特異性信息,本文還設計了一個自交互模塊(SIM)(圖2(h))。兩個不同分辨率的交互分支被訓練成從單個卷積塊中學習多尺度特征, ?AIM和SIM有效地提高了SOD任務中處理尺度變化的能力。?
????????與《 Deep mutual learning》中的設定不同,在這兩個模塊中,相互學習機制被納入到特征學習中。每一個分支都可以通過交互學習更靈活地整合來自其他分辨率的信息。在AIM和SIM中,主分支(圖4中的B1和圖5中的B0)由輔助分支補充,其分辨能力得到了進一步的增強。此外,多尺度的問題也會導致數據集中前景和背景區域之間的嚴重失衡,因此在訓練階段引入了一個一致性增強損失(CEL),它對物體的尺度不敏感。同時,CEL可以更好地處理空間一致性問題,在不需要額外參數的情況下均勻地突出顯著區域,因為其梯度具有保持類內一致性和擴大類間差異的特點。
????????
本文的貢獻可概括為三個方面:?
1、所提出的MINet能夠有效地應對SOD任務中的挑戰。聚合交互模塊(AIM)可以通過相互學習的方式有效地利用相鄰層的特征,而自我交互(SIM)模塊則使網絡可以自適應地從數據中提取多尺度信息,并更好地應對尺度變化。
2、提出增強損失函數,以協助模型統一突出顯示整個顯著區域,并更好地處理由各種比例的物體引起的前、后區域之間的像素不平衡問題,而無需任何后處理或額外處理。
3、本文的方法與五個數據集上的23種最先進的SOD方法進行了比較。在不同的評估指標下,它都能實現最佳性能。此外,該模型在GPU上具有35 FPS的正向推理速度。
?
2、最近工作
2.1、顯著性目標檢測
????????早期的方法主要是基于手工制作的先驗指標?[5, 39, 49, 47]。它們的通用性和有效性是有限的。早期的深度顯著性目標檢測方法 [57, 16]使用多層感知來預測 圖像中每個處理單元的顯著性性分數。這些方法的計算效率很低,而且破壞了 潛在的特征結構。參見[2, 35],了解更多關于傳統和早期深度學習方法的細節。?
????????最近,一些方法[20, 53]引入了全卷積網絡(FCN)[22],并取得了可喜的重新發展。并取得了很好的效果。此外,Liu等人[20]將 全局和局部上下文模塊 分層嵌入到自上而下的路徑中,為每個像素構建了信息語境特征。陳等人。 [4] 在自上而下的路徑中提出反向注意來指導殘差顯著性學習,從而驅動網絡發現補充對象區域和細節。盡管如此,上述方法僅在每個解碼器單元中使用單獨的分辨率特征,這對于應對復雜和各種尺度問題來說并不是一種足夠有效的策略。
2.2、尺度變化
????????尺度變化是 SOD 任務的主要挑戰之一。受限于局部卷積操作和子采樣操作,CNN很難處理這個問題。一方面,嵌入在不同分辨率特征中的關于物體的信息量隨著物體的尺度而變化。一個直截了當的策略是粗略地整合所有的特征。另一方面,每個卷積層只具有處理特定尺度的能力。 因此,我們需要通過構建多路徑特征提取結構來表征單層的多尺度信息。
????????多層次信息。張等人。 [51] 簡單地將所有層次的特征組合到傳輸層中。 這種粗略的融合容易產生信息冗余和噪聲干擾。在[48]中,利用門函數來控制消息傳遞率,以優化層間信息交換的質量。然而,多重門控處理會導致來自其他層的信息嚴重衰減,從而限制了網絡的學習能力。 與這些方法不同的是,我們只融合相鄰層的特征,因為它們的抽象程度更接近,同時獲得了豐富的尺度信息。
? ? ? ? 多尺度信息。空間金字塔池化模塊(ASPP)和金字塔池化模塊(PPM) [55] 是多尺度信息提取的兩種常見選擇,并且通常固定在網絡中的最深層 [ 6, 32]。由于較深的特征包含的小尺度對象信息較少,尤其是頂層特征,這些方法無法有效處理大尺度變化。此外,在[37]中,金字塔注意力模塊可以通過對所有位置進行多次下采樣和softmax操作來獲得多尺度注意力圖來增強特征。 但是這樣的softmax嚴重抑制了非最大值,對噪聲更敏感。 它不能很好地改善尺度問題。為了避免誤判小物體,我們提出了一個多尺度處理模塊,其中兩個分支交互學習特征。 通過數據驅動的訓練,雙路徑結構可以學習到豐富的多尺度表示。 此外,過大和過小的物體會造成前景和背景樣本的不平衡,削弱了像素級監督的效果。 我們引入了一致性增強損失(CEL)作為交叉熵損失的輔助。 CEL對物體的大小不敏感,可以克服監督的困難,在面對大尺度變化時表現非常好。
2.3、空間相干性
為了提高顯著性圖的空間連貫性和質量,一些非深度學習方法方法通常整合生成區域 [44]、超像素 [45] 或目標建議 [11] 的超分割方法。 對于基于深度學習的方法,Wuetal[41] 提出了一個具有兩個分支的級聯部分解碼器框架,并直接利用注意力分支生成的注意力圖來細化顯著性檢測分支的特征。 秦等人。 [27]采用殘差細化模塊結合超損失來進一步細化預測,這顯著降低了推理速度。 在本文中,CEL 更加關注預測的整體效果。 它有助于獲得更均勻的顯著性結果,是效果和速度之間更好的權衡。
3、提出的方法
????????在本文中,我們提出了一種交互式集成網絡,它融合了多層次和多尺度的特征信息,以處理顯著性目標檢測(SOD)任務中普遍存在的尺度變化問題。?
總結
以上是生活随笔為你收集整理的Multi-scale Interactive Network for Salient Object Detection(用于显著性目标检测的多尺度交互网络)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 提交到dockerHub
- 下一篇: 利用cookie实现登陆知网与抽屉网