Squeeze-and-Attention Networks for Semantic Segmentation解读
最近將注意力機制整合到分割任務通過強調特征里面的信息中來提升模型的表征能力。但是這些注意力機制忽略了一個暗含的分割子任務并且被卷積核的方格型形狀所限制。我們提出了一個新穎的壓縮注意力網絡(SANet)結構,利用了一個高效的壓縮注意力(SA)模型去計算兩個分割圖突出的特征:1)分組像素注意 2)像素級預測。特別指出,我們提出的壓縮注意力模型通過引入注意力卷積通道在常規卷積上加了像素組注意力,所以以有效的方式引入一個空間-通道相互依賴。最終的分割結果由網絡輸出和四個階段的多尺度上下文目標像素級預測增強融合所得。我們的SANEet在coco數據集上取得83.2%的精度,在PASCAL取得54.4%的精度。
圖1 分割任務兩個子任務,一個是像素級的分類,即每個像素都要預測一個標簽,一個是像素分組,即預測哪些像素為一組以前的工作:
1)多尺度上下文,一般包含金字塔或者多尺度通道,通過融合多尺度的上下文信息達到增強分割的目的。一個聚集激活模型被提出通過長范圍的上下文信息來緩解普通卷積的特征的位置限制。我們的方法用融合主干殘差網絡不同階段的輸出來提高稠密連接的多尺度預測。
2)通道注意力,一般就是給特定的通道分配不同的權重達到強調重要通道的目的。缺點:帶來額外的參數。而我們的壓縮注意模型帶有下采樣但是并不完全壓縮卷積通道,使得網絡更靈活。特別是增加的通道
3)像素組注意力,自然語言處理中的注意力機制很成功,促使了它在分割任務中的應用,空間轉換網絡詳細的學習空間注意力利用全鏈層轉換去增加特征圖的不變性。RNN、LSTM等一些網絡也被用在了分割任務中。不同于這些現存的模型,我們用平均池化組成的下采樣通道去融合多尺度特征圖并同時產生軟全局注意力掩膜。所以,我們的SA模型提高了目標像素級的預測,并考慮了被忽略的像素組注意力的問題。
本文收SENet啟發,提出SA模型,和SE結構有相似之處,但又有所不同。SA結構可以有效地提升分割的精度。
(a)普通殘差結構(b)帶SE結構的殘差結構(c)本文提出的方法,用池化代替全鏈層,再上次采樣 網絡結構?網絡主干用了帶有膨脹卷積的FCN(resnet)然后將不同(下采樣)階段的特征圖輸出,經過SA模塊提取特征里面的目標的種類信息和mask,作后用label對這些信息進行監督學習。
?
?網絡有三個loss:dense loss\mask loss\categorcal loss,對應上圖的三個loss。增加的兩個loss分別約束
圖像中出現的目標的類與目標的mask。
?
在PASCAL上的實驗結果:?
COCO數據集實驗結果:
?
總結:本文在分割任務上強調了像素組對分割的重要性,并通過目標的mask構建額外的loss,從而更好的學習目標的mask,從而提高精度,網絡結構在SENet的基礎上做了改進,提出SA結構,并將全鏈層替換為平均池化層,從而達到既能表征局部信息又能表征全局信息的效果。
總結
以上是生活随笔為你收集整理的Squeeze-and-Attention Networks for Semantic Segmentation解读的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 为何买了专业设备又要卖掉?怎样正确自学拍
- 下一篇: pairs和ipairs的区别