计算成本缩减100倍!港中文提出语义分割新方法:张量低秩重建|ECCV2020
原文鏈接:https://bbs.cvmart.net/articles/3099
專注計算機視覺前沿資訊和技術(shù)干貨
微信公眾號:極市平臺
官網(wǎng):https://www.cvmart.net/
--------
論文 https://arxiv.org/pdf/2008.00490.pdf
代碼 https://github.com/CWanli/RecoNet
香港中文大學(xué)等提出語義分割新方法:張量低秩重建。
提出背景:上下文信息在語義分割的作用很重要。目前的兩種方法:一種是基于非局部自注意力對上下文信息進行收集。這種方法是用2D相似度矩陣描述3D上下文信息,但是這種空間壓縮會導(dǎo)致通道方面的注意力的丟失。另一種方法是直接對上下文信息建模而不進行壓縮,然而目前仍然沒有成熟的方法。
基于以上兩點,作者團隊提出了一種對3D上下文表示建模的新方法,該方法不僅避免了空間壓縮,而且還解決了高秩難題。作者的方法受到了張量正則-雙峰分解理論(tensor canonical-polyadic decomposition theory)的啟發(fā)。設(shè)計了一個從低到高的上下文重建框架。
大致流程:首先引入張量生成模塊(TGM),該模塊生成許多秩-1張量以捕獲上下文特征片段,然后將秩-1張量送入本文的張量重構(gòu)模塊(TRM)進行處理,恢復(fù)高秩上下文特征。
最后通過實驗證明,在各種公共數(shù)據(jù)集上都達到了SOTA。此外,在計算成本上,本文提出的方法的計算成本要低100倍以上。
1.引言
語義分割旨在給定一張圖片的基礎(chǔ)上對其進行像素級別的預(yù)測。這項任務(wù)的起始研究是FCN,即全卷積網(wǎng)絡(luò),另外還有一些其他的方法也達到了很好的效果。這些方法通過對上下文張量的元素重要性進行評級來對上下文表示建模。然而,這種方法得到的上下文特征缺少通道注意力,而通道注意力則是上下文的關(guān)鍵部分。
解決此問題的一個直觀想法是直接構(gòu)建上下文而不是使用2D相似度特征圖。 然而,由于上下文特征的高秩屬性,這種方法面臨著很大困難。
因此,作者受到張量正則-雙峰分解理論的啟發(fā),即,一個高階張量可以表示為秩-1張量的組合。提出一種在不需要逐通道空間壓縮的情況下對高秩上下文信息進行建模。圖1表示整體流程
基本思想是:首先使用一系列低秩張量來收集上下文特征的片段,然后將其重建以重構(gòu)細粒度的上下文特征。
本文的框架分為兩個部分:秩-1張量生成模塊(TGM)和高秩張量重建模塊(TRM)
TGM模塊:旨在通道,高度和寬度維度上生成秩-1張量,從而在具有低秩約束的不同視圖中探索上下文特征。
TRM模塊:采用張量規(guī)范-多態(tài)(CP)重構(gòu)來重建高秩注意力特征圖,其中基于不同視角的秩-1張量挖掘共現(xiàn)上下文信息。
本文的具體貢獻是:
1.揭示上下文建模的新途徑,即上下文從低秩到高秩的重建。
2.開發(fā)了新的語義分割框架RecoNet,該框架通過張量CP重建來探索上下文信息。 它不僅保持了空間和通道方面的注意力,而且還解決了高秩困難。
3.進行廣泛的實驗,將所提出的方法與其他各種公開數(shù)據(jù)集上的方法進行比較,從而獲得顯著的性能提升。 此外,RecoNet的計算成本也更低。
2.方法
2.1總覽
受CP分解理論的啟發(fā),作者將上下文信息的建模分解為一系列低秩問題,這些低秩問題更易于處理。
模型的流程圖如圖2所示。模型由低階張量生成模塊(TGM),高階張量重構(gòu)模塊(TRM)和全局池化模塊(GPM)組成,以在空間和通道維度上獲取全局上下文。 在語義標簽預(yù)測之前使用雙線性插值對模型輸出進行上采樣。
? 圖 2
形式化定義: 假設(shè)在C / H / W方向上有3r個向量vci∈RC×1×1,vhi∈R1×H×1v_{ci}∈R^{C×1×1},v_{hi}∈R^{1×H×1}vci?∈RC×1×1,vhi?∈R1×H×1和vwi∈R1×1×Wv_{wi}∈R^{1×1×W}vwi?∈R1×1×W,其中i∈ri∈ri∈r和r是張量的秩。這些向量是A∈RC×H×WA∈R^{C×H×W}A∈RC×H×W的CP分解片段,然后將張量CP 秩-r重建定義為:
其中,λiλ_iλi?是比例因子。
2.2 張量生成模塊
作者首先給出基本定義,然后解釋如何得到低秩張量。
上下文分片 定義上下文片段作為張量生成模塊的輸出,它指一些在通道,高度和寬度維度的秩1向量vciv_{ci}vci?,vhiv_{hi}vhi?和vwiv_{wi}vwi?。 每個上下文片段都包含一部分上下文信息。
特征生成器 定義三個特征生成器:通道生成器,高度生成器和寬度生成器。 每個生成器由Pool-Conv-Sigmoid序列組成。 在特征生成器中使用全局平均池化,以在C / H / W方向上獲取全局上下文表示。
上下文分片生成 為了學(xué)習(xí)三個維度的上下文信息片段,在輸入特征的頂部應(yīng)用通道,高度和寬度生成器。 重復(fù)此過程r次,獲得3r個可學(xué)習(xí)向量vci∈RC×1×1,vhi∈R1×H×1v_{ci}∈R^{C×1×1},v_{hi}∈R^{1×H×1}vci?∈RC×1×1,vhi?∈R1×H×1和vwi∈R1×1×Wv_{wi}∈R^{1×1×W}vwi?∈R1×1×W,其中i∈ri∈ri∈r 。所有向量均使用獨立的卷積核生成。 每個向量都學(xué)習(xí)一部分上下文信息,并作為上下文片段輸出。 TGM如圖3所示。
TGM的非線性 添加非線性有兩個原因。 首先,每個重新縮放的元素都可以看作是某種上下文特征的權(quán)重,它滿足了注意力的定義。 其次,所有上下文片段都不應(yīng)是線性相關(guān)的,以便它們中的每一個都可以代表不同的信息。
2.3 張量生成模塊
這個部分主要介紹上下文重建與聚合的流程。整個重建過程基于公式1。首先來看上下文聚合
上下文聚合 TRM的目標是獲得3D注意力特征圖A∈RC×H×WA∈R^{C×H×W}A∈RC×H×W,從而在空間和通道注意力上保持響應(yīng)。上下文特征是按元素乘積獲得的。 給定輸入特征X={x1,x2,...,xCHW}X = \{x_1,x_2,... ,x_{CHW}\}X={x1?,x2?,...,xCHW?}和上下文注意力特征圖A={a1,a2,...,aCHW}A =\{a_1,a_2,... ,a_{CHW} \}A={a1?,a2?,...,aCHW?} ,細粒度的上下文特征Y={y1,y2,...,yCHW}Y = \{y_1,y_2,... ,y_{CHW}\}Y={y1?,y2?,...,yCHW?}則由下式給出:
其中每個ai∈Aa_i ∈ Aai?∈A表示被激活的xi∈Xx_i ∈ Xxi?∈X的擴展。
低秩重建 張量重建模塊為了處理上下文的高秩屬性。 TRM分為兩步:首先,三個上下文分片vc1∈RC×1×1,vh1∈R1×H×1,vw1∈R1×1×Wv_{c1} ∈ R^{C×1×1},v_{h1} ∈ R^{1×H×1} , v_{w1} ∈ R^{1×1×W}vc1?∈RC×1×1,vh1?∈R1×H×1,vw1?∈R1×1×W合成一個秩-1子注意力特征圖A1A_1A1?。(每個子注意力特征圖表示一個低秩上下文信息)這個子注意力特征圖表示3D上下文特征的一部分。然后,其他的上下文分片以同樣的方式重建。最后使用權(quán)重均值聚合所有的子注意力特征圖得到高秩張量:
其中λi∈(0,1)λ_i ∈ (0, 1)λi?∈(0,1)是可學(xué)習(xí)的正則化因子。通過公式2,3可以得到空間和通道細粒度的上下文特征。
2.4 全局池化模塊
全局池化模塊由一個全局平均池化操作和一個1x1卷積組成,旨在學(xué)習(xí)空間和通道兩個維度的上下文特征。
2.5 網(wǎng)絡(luò)細節(jié)
這里用ResNet作為骨干網(wǎng)絡(luò),在Res-4和Res-5輸出的結(jié)果后使用膨脹策略,Res-5的輸出特征標記為X,將TGM+TRM和GPM放到X的頂部。設(shè)置權(quán)重α為0.2,損失函數(shù)如下:
最后將X與TGM+TRM和GPM生成的上下文特征和全局上下文進行連接,進行最終的預(yù)測。
2.6 與之前方法的聯(lián)系
這部分主要與之前的non-local和它的變體相比。本文的模型主要使用一元注意力。一元注意力廣泛使用在圖像分類和語義分割中,兩種任務(wù)的典型代表:SENet,CBAM,DFN,EncNet。
SENet是RecoNet.最簡單的形式,SENet的3D特征圖ASE∈RC×H×WA_{SE }∈ R^{C×H×W}ASE?∈RC×H×W表示如下:
EncNet是SENet的升級版,也使用相同的空間權(quán)重。
CBAM中引入了不同的空間權(quán)重,將公式5進行拓展:
其中ACBAM∈RC×H×WA_{CBAM} ∈ R^{C×H×W}ACBAM?∈RC×H×W是CBAM.的3D注意力特征圖。雖然在CBAM考慮到了空間注意力。但是,單一的秩-1張量ACBAMA_{CBAM}ACBAM?并不能對復(fù)雜的上下文信息進行建模。在本文中,將空間注意力使用CP分解理論變?yōu)閮蓚€秩-1張量,vh∈R1×H×1v_h ∈ R^{1×H×1}vh?∈R1×H×1和vw∈R1×1×Wv_w ∈ R^{1×1×W}vw?∈R1×1×W。于是,ACBAMA_{CBAM}ACBAM?就成了RecoNet的子注意力特征圖。
RecoNet不僅利用了一元注意力的簡潔性和有效性,而且能從多個角度對特征進行表示。
3 實驗
主要使用5個數(shù)據(jù)集:PASCAL-VOC12, PASCAL-Context, COCO-Stu?, ADE20K,SIFT-FLOW
3.1實驗設(shè)定
使用pytorch框架。使用同步批正則化。學(xué)習(xí)率設(shè)定為lr=base_lr×(1?itertotaliters)powerlr = base\_lr × (1 ?\frac{iter}{total_iters})^{power}lr=base_lr×(1?totali?tersiter?)power.
在PASCAL-VOC12, PASCAL-Context,COCO-Stu?上將base_lr設(shè)為0.001。
ADE20K,SIFT-FLOW的base_lr分別為0.01,0.0025. power設(shè)為0.9,在SGD優(yōu)化器中設(shè)置weight decay和momentum分別為0.0001和0.9.
在ADE20K和COCO-Stu?分別訓(xùn)練120 epoch,180 epoch,其他數(shù)據(jù)集訓(xùn)練80epoch。所有的數(shù)據(jù)集batch_size 為16,輸入圖片隨機裁剪為512x512.
3.2 不同數(shù)據(jù)集上的結(jié)果
3.3 消融研究
? 圖5 注意力子特征圖的可視化
? 圖 6 PASCAL-VOC12數(shù)據(jù)集的量化結(jié)果
4.總結(jié)
本文主要提出一個對于復(fù)雜上下文特征預(yù)測的低秩張量重建方法。它解決了之前的特征壓縮的問題。亮點在于引入了CP分解理論,通過它來將低秩張量構(gòu)建稱高秩上下文特征,這樣做可以得到空間和通道多維的信息。開發(fā)了新的語義分割框架RecoNet,該框架通過張量CP重建來探索上下文信息。 它不僅保持了空間和渠道方面的注意力,而且還解決了高秩困難。
關(guān)注極市平臺公眾號(ID:extrememart),獲取計算機視覺前沿資訊/技術(shù)干貨/招聘面經(jīng)等
總結(jié)
以上是生活随笔為你收集整理的计算成本缩减100倍!港中文提出语义分割新方法:张量低秩重建|ECCV2020的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 超详细!使用OpenCV深度学习模块在图
- 下一篇: 显著改善分割预测,ETH开源基于情景图储