【Lawin Transformer2022】Lawin Transformer: Improving Semantic Segmentation Transformer with Multi-Sc
Lawin Transformer: Improving Semantic Segmentation Transformer with Multi-Scale Representations via Large Window Attention
Lawin Transformer:通過大窗口注意改進具有多尺度表示的語義分割轉換器
論文地址:https://arxiv.org/abs/2201.01615
代碼地址:https://github.com/yan-hao-tian/lawin
摘要
多尺度表征對語義分割至關重要。社區已經見證了利用多尺度背景信息的語義分割卷積神經網絡(CNN)的蓬勃發展。由于Vision Transformer(ViT)在圖像分類中的強大作用,最近提出了一些語義分割ViTs,其中大多數取得了令人印象深刻的結果,但以計算經濟為代價。在本文中,我們通過窗口關注機制成功地將多尺度表示引入語義分割ViT,并進一步提高了性能和效率。為此,我們引入了大窗口關注機制,允許本地窗口在僅有少量計算開銷的情況下查詢更大范圍的上下文窗口。通過調節上下文區域與查詢區域的比例,我們使大窗口關注能夠捕捉到多種尺度的上下文信息。此外,我們還采用了空間金字塔池的框架來與大窗口注意力協作,這就為語義分割ViT提供了一個新穎的解碼器,名為大窗口注意力空間金字塔池(LawinASPP)。我們得到的ViT,Lawin Transformer,是由一個高效的hierarchical vision transformer (HVT)作為編碼器和LawinASPP作為解碼器組成。實驗結果表明,與現有的方法相比,Lawin Transformer提供了一個更好的效率。Lawin Transformer在Cityscapes(84.4% mIoU)、ADE20K(56.2% mIoU)和COCO-Stuff數據集上進一步創造了新的最先進性能。該代碼將發布在*https://github.com/yan-hao-tian/lawin。*
1. 介紹
??語義分割是計算機視覺中最重要的稠密預測任務之一。隨著深度卷積神經網絡(CNN)在這一領域的繁榮,基于CNN的語義分割管道在廣泛的實際應用中獲得越來越多的青睞,如自動駕駛汽車、醫學成像分析和遙感圖像解釋[32, 34, 35]。在仔細研究了著名的語義分割CNN之后,我們注意到一系列的工作主要集中在利用多尺度表征上[9,10,24,25,49,50],這對理解多尺度的先驗背景起著至關重要的作用。為了納入豐富的上下文信息,這些工作大多將過濾器或池化操作,如無序卷積[47]和自適應池化,應用于空間金字塔池化(SPP)模塊[23, 27]。
??自從Vision Transformer(ViT)在圖像分類上的表現令人印象深刻[19,38],有一些努力用純Transformer模型來解決語義分割問題,仍然比以前的語義分割CNN要好得多[30,36,42,52]。然而,實現這些語義分割ViTs需要很高的計算成本,特別是當輸入圖像很大時。為了解決這個問題,出現了純粹基于hierarchical vision transformer (HVT)的方法,節省了很多計算預算。Swin Transformer是最有代表性的HVT之一,在許多視覺任務上取得了最先進的成果[30],同時它采用了一個重型解碼器[42]來對像素進行分類。SegFormer完善了編碼器和解碼器的設計,產生了一個非常高效的語義分割ViT[43]。但有一個問題是,SegFormer僅僅依靠增加編碼器的模型容量來逐步提高性能,這有可能降低效率的上限。
??通過以上分析,我們認為目前語義分割ViT的一個主要問題是缺乏多尺度的語境信息,從而影響了性能和效率。為了克服這一限制,我們提出了一種新的窗口關注機制,即大窗口關注。如圖1所示,在大窗口關注中,均勻分割的補丁會查詢覆蓋更大區域的上下文補丁,而局部窗口關注中的補丁只是查詢自己。另一方面,考慮到注意力會隨著上下文補丁的擴大而變得難以計算,我們設計了一個簡單而有效的策略來緩解大上下文的困境。具體來說,我們首先將大的上下文補丁匯集到相應的查詢補丁的空間維度上,以保持原有的計算復雜性。
圖1. LawinASPP和ASPP之間的區別。在ASPP中,以不同的擴張率進行的無序卷積可以捕獲多個尺度的表征。相比之下,LawinASPP用我們提出的大窗口關注取代了無序卷積。紅色窗口代表查詢區域。黃色、橙色和紫色的窗口代表不同空間大小的背景區域。
??然后,我們在大窗口關注中啟用多頭機制,在匯集上下文的同時,將頭的數量嚴格設定為下采樣率R的平方,主要用于恢復查詢和上下文之間被拋棄的依賴關系。最后,受MLP-Mixer[37]中token-mixing MLP的啟發,我們在頭的R2R^2R2子空間上分別應用了R2R^2R2位置混合操作,加強了多頭注意的空間表示能力。因此,我們提出的大窗口注意中的補丁可以捕獲任何尺度的上下文信息,只是產生了一點位置混合操作引起的計算開銷。與不同比率R的大窗口注意相結合,SPP模塊演變成大窗口注意空間金字塔池(LawinASPP),人們可以像ASPP(Atrous Spatial Pyramid Pooling)[9]和PPM(Pyramid Pooling Module)[50]一樣采用它來利用多尺度表示進行語義分割。
??我們通過將LawinASPP置于HVT的頂端,將高效的HVT擴展到Lawin Transformer,從而將多尺度表示引入語義分割ViT。Lawin Transformer的性能和效率在Cityscapes[17]、ADE20K[53]和COCO-Stuff[4]數據集上得到了評估。我們進行了廣泛的實驗,將Lawin Transformer與現有的基于HVT的語義分割方法[11, 30, 43]進行比較。Lawin Transformer的效率提高了,這一點從Lawin Transformer花費較少的計算資源來獲得更好的性能得到了證明。此外,我們的實驗表明,Lawin Transformer在這些基準上一直優于其他先進的方法。
2. 相關工作
2.1. 語義分割
??基于全卷積神經網絡(FCN)的語義分割模型[31]是完成像素級分類的最有希望的方法。為了實現精確的場景理解,已經在許多方面對語義分割CNN進行了連續改進。[1, 3, 29, 34] 緩解了高層特征的邊界信息不足。[7, 8, 33, 47]被提出來擴大模型的接受域。空間金字塔集合(SPP)模塊已被證明在利用多尺度表征方面是有效的,它從局部背景到全局背景收集場景線索[10, 24, 25, 50]。另一條工作路線是利用自我注意機制的變體來建立表征之間的依賴關系[5, 21, 26, 28, 40, 45, 46, 51]。
2.2. Vision Transformer
??Transformer已經徹底改變了神經語言處理,并在計算機視覺中被證明非常成功。ViT[19]是第一個用于圖像分類的端到端視覺轉化器,它將輸入圖像投射到一個標記序列中,并將其附加到一個類標記上。DeiT[38]通過一個令牌提煉管道提高了訓練ViT的數據效率。除了序列到序列的結構,PVT[39]和Swin Transformer[30]的效率激發了人們對探索層次視覺變換器(HVT)[14, 22, 41, 44]的極大興趣。ViT也被擴展到解決低層次任務和密集預測問題[2,6,20]。特別是,由ViT驅動的并發語義分割方法呈現出令人印象深刻的性能。SETR[52]將ViT部署為編碼器,并對輸出的補丁嵌入進行上采樣,對像素進行分類。Swin Transformer通過連接UperNet[42]將自己擴展為一個語義分割的ViT。Segmenter[36]依賴于ViT/DeiT作為骨干,并提出了一個掩碼變換器解碼器。Segformer[43]展示了一個簡單、高效而強大的語義分割編碼器和解碼器的設計。MaskFormer[11]將語義分割重新表述為一個掩碼分類問題,與Swin-UperNet相比,其FLOPs和參數要少很多。在本文中,我們通過在HVT中引入多尺度表示,向更有效的語義分割ViT設計邁出了新的一步。
2.3. MLP-Mixer
??MLP-Mixer[37]是一個比ViT更簡單的新型神經網絡。與ViT類似,MLP-Mixer首先采用線性投影的方式,像ViT一樣得到一個標記序列。鮮明的區別是MLP-Mixer完全基于多層感知器(MLP),因為它用令牌混合MLP取代了轉換層的自我注意。令牌混合MLP沿著通道維度行事,混合令牌(位置)來學習空間表征。在我們提出的大窗口注意中,令牌混合MLP被應用于集合的上下文補丁,我們稱之為位置混合,以提高多頭注意的空間表征。
3.方法
??在這一部分,我們首先簡要地介紹了多頭注意力和標記混合MLP。然后,我們闡述了大窗口注意力并描述了LawinASPP的結構。最后,介紹了Lawin變換器的整體結構。
3.1. 背景
??多頭注意是Transformer layer的核心。在層次視覺變換器(Hierarchical Vision Transformer,HVT)中,多頭注意的操作僅限于局部均勻分割的窗口,這被稱為局部窗口注意。假設輸入是一個二維特征圖,表示為x2d∈C×H×W{x_{2d}} \in {^{C \times H \times W}}x2d?∈C×H×W,我們可以將窗口注意的操作表述為:
x^2d=Reshape(h,HWP2,Ch,P,P)(x2d),(1)\hat x_{2d}=Reshape \left( h,{HW\over P^2},{C\over h},P,P \right)(x_{2d}),\tag{1} x^2d?=Reshape(h,P2HW?,hC?,P,P)(x2d?),(1)
x2d=Reshape(C,H,W)(MHA(x^2d))+x2d,(2)x_{2d}=Reshape(C,H,W)(MHA(\hat x_{2d}))+x_{2d},\tag{2} x2d?=Reshape(C,H,W)(MHA(x^2d?))+x2d?,(2)
其中hhh是頭數,PPP是窗口的空間大小,MHA()MHA()MHA()是多頭關注(MHA)機制。MHA的基本操作可以描述為。
A=softmax((Wqx2d(Wkx2d)T)Dh)(Wvx2d),(3)A=softmax\left( {(W_qx_{2d}(W_kx_{2d})^T)\over\sqrt D_h }\right)(W_vx_{2d}),\tag{3} A=softmax(D?h?(Wq?x2d?(Wk?x2d?)T)?)(Wv?x2d?),(3)
MHA=concat[A1;A2;...;Ah]Wmha,(4)MHA=concat[A_1;A_2;...;A_h]W_{mha},\tag{4} MHA=concat[A1?;A2?;...;Ah?]Wmha?,(4)
其中,WqW_qWq?、WkW_kWk?和WV∈C×Dh{W_V} \in {^{C \times {D_h}}}WV?∈C×Dh?是學習到的線性變換,Wmhsa∈RD×C{W_{mhsa}} \in {R^{D \times C}}Wmhsa?∈RD×C是學習到的權重,聚集了多個注意值。DhD_hDh?通常被設定為D/hD/hD/h,DDD是嵌入維度。
Token-mixing MLP是MLP-Mixer的核心,它可以聚合空間信息,通過讓空間位置相互溝通。給定輸入的二維特征圖x2d∈C×H×W{x_{2d}} \in {^{C \times H \times W}}x2d?∈C×H×W,令牌混合MLP的操作可以表述為。
x^2d=Reshape(C,HW)(x2d),(5)\hat x_{2d}=Reshape (C,HW)(x_{2d}),\tag{5} x^2d?=Reshape(C,HW)(x2d?),(5)
x2d=Reshape(C,H,W)(MLP(x^2d))+x2d,(6)x_{2d}=Reshape (C,H,W)(MLP(\hat x_{2d}))+x_{2d},\tag{6} x2d?=Reshape(C,H,W)(MLP(x^2d?))+x2d?,(6)
MLP(x2d)=W2σ(W1(x2d)),(7)MLP( x_{2d})=W_2σ(W_1(x_{2d})),\tag{7} MLP(x2d?)=W2?σ(W1?(x2d?)),(7)
其中W1∈RHW×Dmlp{W_1} \in {R^{HW \times {D_{mlp}}}}W1?∈RHW×Dmlp?和W2∈RDmlp×HW{W_2} \in {R^{{D_{mlp}} \times HW}}W2?∈RDmlp?×HW都是學習的線性變換,σσσ是提供非線性的激活函數。
3.2. 大窗口注意力
??與第3.1節中提到的窗口關注相似,大窗口關注將整個特征圖均勻地分割成幾個斑塊。反之,當大窗口注意力在圖像上滑動時,允許當前的補丁查詢更大的區域。為了簡單起見,我們把查詢補丁表示為Q∈P2×CQ \in {^{{P^2} \times C}}Q∈P2×C,把被查詢的大背景補丁表示為Q∈R2×P2×CQ \in {^{{R^2} \times {P^2} \times C}}Q∈R2×P2×C,其中R是背景補丁大小與查詢補丁大小的比率,P2P^2P2是補丁的面積。由于注意力的計算復雜度為O(P2)O( P^2)O(P2),當C的空間大小增加R倍時,計算復雜度增加到O(R2P2)O({R^2}{P^2})O(R2P2)。在這種情況下,注意力的計算不限于P×PP×PP×P的局部斑塊,如果比率RRR或輸入分辨率非常大,甚至無法承受。為了保持原有的計算復雜性,我們將CCC匯集成一個抽象的張量,其下采樣率為RRR,將上下文斑塊的空間大小減少到(P,P)(P,P)(P,P)。然而,這樣一個簡單的過程也有一定的缺點。情境補丁的下采樣不可避免地拋棄了Q和C之間豐富的依賴關系,特別是當R很大的時候。為了緩解注意力不集中的問題,我們自然而然地采用多頭機制,讓頭的數量嚴格等于R2R^2R2,從而將注意力矩陣從(P2,P2)(P^2, P^2)(P2,P2)制定為(P2,P2,P2)(P^2, P^2, P^2)(P2,P2,P2)值得注意的是,頭的數量對計算復雜性沒有影響。
圖2. 一個大窗口的關注。紅色斑塊Q是查詢斑塊,紫色斑塊C是背景斑塊。上下文被重塑并被送入標記混合MLPs。輸出的上下文CP被命名為位置混合的上下文。最好以彩色觀看
??已經有研究表明,通過一定的技術規范化頭部子空間,多頭注意力可以學習到所需的不同表征[12,16,18]。考慮到下采樣后空間信息變得抽象,我們打算加強多頭注意力的空間表征能力。在MLP-Mixer中,令牌混合MLP與通道混合MLP在收集空間知識方面是互補的,因此我們定義了一組針對頭部的位置混合MLP=MLP1,MLP2,...,MLPhMLP={MLP_1, MLP_2, ..., MLP_h}MLP=MLP1?,MLP2?,...,MLPh?。如圖2所示,匯集的上下文補丁的每個頭都被推入其相應的token(position)-mixing MLP,同一頭內的空間位置以相同的行為相互交流。我們將產生的語境稱為位置混合語境補丁,并將其表示為CPC^PCP,其計算方法為。
C^=Reshape(h,C/h,P2)(φ(C)),(8)\hat C=Reshape(h,C/h,P^2)(\varphi (C)),\tag{8} C^=Reshape(h,C/h,P2)(φ(C)),(8)
Ch=MLPh(C^h)+C^h,(9)C_h=MLP_h(\hat C_h)+\hat C_h,\tag{9} Ch?=MLPh?(C^h?)+C^h?,(9)
CP=Reshape(C,P2)(concat[C1;C2;...;Ch]),(10)C^P=Reshape(C,P^2)(concat[C_1;C_2;...;C_h]),\tag{10} CP=Reshape(C,P2)(concat[C1?;C2?;...;Ch?]),(10)
其中,C^h{{{\rm{\hat C}}}_{\rm{h}}}C^h?表示C^{{\rm{\hat C}}}C^的第hhh個頭,MLPh∈P2×P2ML{P_h} \in {^{{P^2} \times {P^2}}}MLPh?∈P2×P2是加強第h個頭的空間表示的第h個變換,φ\varphiφ表示平均匯集操作。有了位置混合語境CPC^PCP,我們可以將公式(3)和公式(4)重新表述如下。
A=softmax((WqQh)(WkChP)TDh)(WvChP),(11)A=softmax \left({(W_qQ_h)(W_kC_h^P)^T\over \sqrt {D_h} }\right)(W_vC_h^P),\tag{11} A=softmax(Dh??(Wq?Qh?)(Wk?ChP?)T?)(Wv?ChP?),(11)
MHA=concat[A1;A2;...;Ah]Wmha.(12)MHA=concat[A_1;A_2;...;A_h]W_{mha}.\tag{12} MHA=concat[A1?;A2?;...;Ah?]Wmha?.(12)
一個主要的問題是關于MLP的開銷,所以我們列出了局部窗口注意和大窗口注意的計算復雜性。
Ω(Lowin)=4(HW)C2+2(HW)P2C,(13)\Omega(Lowin)=4(HW)C^2+2(HW)P^2C,\tag{13} Ω(Lowin)=4(HW)C2+2(HW)P2C,(13)
Ω(Lowin)=4(HW)C2+3(HW)P2C,(143)\Omega(Lowin)=4(HW)C^2+3(HW)P^2C,\tag{143} Ω(Lowin)=4(HW)C2+3(HW)P2C,(143)
其中H和W分別是整個圖像的高度和寬度,PPP是局部窗口的大小。由于P2P^2P2,通常設置為7或8,比高層特征中的CCC小得多,所以MLP引起的額外支出是可以合理忽略的。令人欽佩的是,大窗口注意力的計算復雜性與比率RRR無關。
3.3. LawinASPP
圖3. Lawin變換器的整體結構。圖像被送入編碼器部分,它是一個MiT。然后,來自后三個階段的特征被匯總,并被送入解碼器部分,這是一個LawinASPP。最后,所得到的特征被編碼器的第一級特征增強了低層次信息。"MLP "表示多層感知器。"CAT "表示對特征進行串聯。
"Lawin "表示大窗口關注。"R "表示上下文補丁與查詢補丁的大小比例。
??為了捕捉多尺度表征,我們采用了空間金字塔集合(SPP)的架構,與大窗口關注協作,得到了新穎的SPP模塊,稱為LawinASPP。LawinASPP由5個平行的分支組成,包括一個快捷連接,三個R=(2,4,8)的大窗口注意力和一個圖像池分支。如圖3所示,大窗口注意的分支為局部窗口提供了三個層次的感受野。按照以前關于窗口注意機制的文獻[30],我們將局部窗口的補丁大小設定為8,因此提供的感受野為(16,32,64)。圖像池化分支使用全局池化層獲得全局上下文信息,并將其推入線性轉換,然后進行雙線性上采樣運算,以匹配特征維度。短路徑復制輸入特征,并在所有上下文信息輸出后將其粘貼。所有產生的特征首先被連接起來,一個學習的線性變換執行降維以生成最終的分割圖。
3.4. Lawin Transformer
??在研究了先進的HVT之后,我們選擇MiT和Swin-Transformer作為Lawin Transformer的編碼器。MiT被設計為SegFormer[43]的編碼器,SegFormer是一個簡單、高效而強大的語義分割ViT。Swin-Transformer[30]是一個非常成功的建立在局部窗口注意力上的HVT。在應用LawinASPP之前,我們將輸出跨度=(8,16,32)的多級特征串聯起來,將其調整為輸出跨度=8的特征的大小,并使用線性層對串聯的特征進行轉換。由此產生的輸出跨度=8的轉換特征被送入LawinASPP,然后我們得到具有多尺度上下文信息的特征。在最先進的語義分割的ViT中,用于最終預測分割對數的特征總是來自編碼器的4級特征。因此,我們采用輸出跨度=4的第一級特征來補償低級別的信息。awinASPP的輸出被放大到輸入圖像的四分之一大小,然后通過一個線性層與第一級特征融合。最后,在低層次增強的特征上預測分割對數。更多細節見圖3。
4.實驗
數據集。我們在三個公共數據集上進行實驗,包括Cityscapes [17], ADE20K [53] 和COCOStuff [4]。Cityscapes是一個城市場景解析數據集,包含從50個城市拍攝的5000張精細注釋的圖像,有19個語義類別。有2,975張圖片被分為訓練集,500張圖片被分為驗證集,1,525張圖片被分為測試集。ADE20K是語義分割中最具挑戰性的數據集之一。它包括一個包含150個類別的20,210張圖片的訓練集,一個包含3,352張圖片的測試集和一個包含2,000張圖片的驗證集。COCO-Stuff也是一個非常具有挑戰性的基準,由16400張圖像和172個語義類別組成。訓練集包含118k圖像,測試-開發數據集包含20k圖像,驗證集包含5k圖像。
實施細節。我們的實驗方案與[43]的方案完全相同。特別是,我們使用公開的ImageNet1K-pretrained MiT[43]作為Lawin變換器的編碼器。本節中的所有實驗都是基于MMSegmentation[15]代碼庫在8臺Tesla V100的服務器上實現的。在做消融研究時,我們選擇MiT-B3作為編碼器,對所有模型進行80k次迭代訓練。除非特別說明,所有的結果都是通過單尺度推理實現的。請注意,其他方法的所有結果是由我們訓練官方代碼獲得的。
4.1. 與SegFormer的比較
表1. SegFormer與Lawin Transformer的比較。??為了證明Lawin Transformer的效率提高,我們將其與SegFormer[43]進行比較。兩者都是建立在窗口關注的基礎上,以MiT作為編碼器。為了實現公平性,我們在我們的環境中重新實現了SegFormer。表1顯示了關于參數、FLOPs和mIoU的比較。顯然,在MiT的所有變體中(B0→B5),Lawin Transformer在mIoU和FLOPs上勝過SegFormer,只需增加一點參數。
??當輕量級的MiT-B0和MiT-B1作為編碼器時,Lawin Transformer可以在節省計算成本的情況下提高性能。例如,Lawin-B0使用更少的FLOPs(3.1),在COCO-Stuff數據集上獲得了0.5%的mIoU增益,在ADE20K數據集上獲得了0.8%的增益。此外,我們觀察到,在某些情況下,Lawin Transformer可以彌補由編碼器的模型容量造成的性能差距。例如,SegFormer-B3在所有三個數據集上的表現都比SegFormerB4差。但是,如果用LawinASPP代替原始解碼器,結果Lawin-B3比SegFormer-B4好0.6% mIoU,在ADE20K上產生了34G FLOPs的計算節省,甚至使用更少的參數。另外,在Cityscapes上,Lawin-B4比SegFormer-B5提高了0.4%,計算成本降低了近三分之一;Lawin-B3比SegFormer-B5提高了0.2%,計算成本和參數降低了近一半。這些經驗結果表明,隨著編碼器容量的不斷增加,語義分割ViT可能遇到性能瓶頸。與簡單地擴大編碼器相比,LawinASPP提出了一種有希望的、有效的方法,通過捕捉豐富的上下文信息來克服這一瓶頸。
4.2. 比較UperNet和MaskFormer
表2. ADE20K上Swin-Lawin變換器與MaskFormer和Swin-UperNet的比較。標有"?"的方法 采用640×640的剪裁輸入。標有? 的方法表示其編碼器在ImageNet22k上進行了預訓練。??為了進一步顯示效率,我們用Swin-Transformer[30]代替MiT,并將Swin-Lawin Transformer與Swin-UperNet和MaskFormer在ADE20K上進行比較,如表2所示。從表2中,我們有以下觀察。首先,與Swin-UperNet相比,Swin-Lawin在很大程度上提高了性能并節省了大量的計算成本。特別是,帶有Swin-B的Lawin Transformer能夠以近四分之一的計算成本超越帶有Swin-L的UperNet。其次,與Swin-MaskFormer相比,Swin-Lawin在Swin-Transformer的所有變體中始終使用較少的FLOPs和參數。最后,通過對性能的仔細觀察,我們發現,當編碼器的容量較小時(Swin-T→S),Swin-Lawin的性能比MaskFormer差。然而,隨著編碼器容量的增加(Swin-B→L),Swin-Lawin的表現優于MaskFormer。可以看出,隨著容量的增加,Swin-Lawin與SwinUper相比所創造的性能增益也變得更大。我們推斷,短路徑分支和Lawin Transformer中的低層次信息在最終預測中具有非常重要的作用(4.3.3節討論了Lawin Transformer中不同層次的貢獻),它們都直接來自骨干網的多層次特征。因此,編碼器部分越強大,Lawin Transformer的性能增益就越大。
4.3. 消融實驗
4.3.1 空間金字塔池
表3. 在ADE20K上與MiTB3耦合時不同SPP模塊的結果。??由于LawinASPP中的空間金字塔池化(SPP)[23, 27]架構,Lawin Transformer以一種有效的方式捕獲了具有大窗口注意力的多尺度表示。為了研究大窗口注意力和SPP架構對性能的影響,我們選擇了一些依靠SPP的代表性方法,包括PPM(金字塔池化模塊)[50],ASPP(Atrous空間金字塔池化)[9]和SEP-ASPP(深度可分離的Atrous空間金字塔池化)[10]。LawinASPP與這些替代方案之間的明顯區別是基本的池化操作。PPM使用金字塔自適應池化來捕捉不同尺度的背景信息。ASPP使用腹式卷積來提取多尺度特征。為了提高效率,SEPASPP使用深度可分離的阿特拉斯卷積[13]來代替阿特拉斯卷積。表3顯示了MiT-B3與不同的基于SPP的模塊相結合時的參數、FLOPs和mIoU,這些都在ADE20K上進行了測試。PPM和SEP-ASPP是令人印象深刻的計算經濟,甚至比LawinASPP使用更少的FLOPs。然而,它們與LawinASPP之間存在著相當大的性能差距(PPM為2.1%,SEP-ASPP為1.7%)。ASPP取得的性能略高于SEP-ASPP,但花費的計算資源最多。通過這些競爭,LawinASPP被證明是將多尺度表征引入語義分割ViT的首選模塊,這主要歸功于大窗口注意力。
4.3.2 大窗口注意力的關鍵組成部分
表4. 在ADE20K上,Lawin-B3的比率、頭部和MLP類型的各種設置的結果。 圖4. LawinASPP的一個簡單實現。查詢補丁和上下文補丁的面積都被設置為(64,32,16)池化和多頭化:用下采樣率R匯集大的上下文補丁,并將MHA的頭數增加到R2,目的是分別降低計算復雜性和恢復被丟棄的依賴關系。為了驗證該策略,我們進行了表4所示的第一組實驗。我們首先測試了大上下文補丁保持空間大小而不進行任何降采樣時的性能。然而,這種設置所需的內存是無法承受的,所以我們做了一點調整,如圖4所示,將查詢補丁的大小設置為等于上下文補丁。這個簡單實現的性能比標準實現低1.3%。如果將上下文補丁匯集到與查詢補丁相同的大小,性能就會嚴重下降,只能達到47.3%的mIoU,這是由于注意力稀少的原因。啟用多頭機制可以帶來0.6%的改進,但落后于標準甚至是簡單的實現。這組比較表明,大窗口注意力與集合上下文補丁實際上存在不充分的依賴性,而多頭機制可以略微緩解這一問題。
位置混合和通道混合。在大窗口注意中,我們創新性地采用了位置混合操作來加強多頭注意的空間表征能力。在MLP-Mixer[37]中,應用通道混合MLP來學習特征通道的知識。MLP-Mixer同時使用了兩種MLP,這促使我們對通道混合的研究。我們通過用通道混合MLP代替標記混合MLP來加強每個頭內的特征通道的交流。上下文補丁被降低采樣,多頭機制被啟用。表4中列出的第二組結果表明,通道混合MLP提高了多頭注意力的表現,并提供了1.2%的明顯的性能改進,但不像令牌混合MLP那樣強大(2%)。此外,我們將令牌混合MLP和通道混合MLP結合起來,就像MLP-Mixer中的一個區塊,沿著兩個維度轉換每個頭的子空間,獲得了49.4%的mIoU的競爭結果,但比孤立的位置混合(49.9%)要差。通過這些觀察,我們認為位置混合操作比通道混合更有助于恢復空間降采樣操作的依賴性。
語境的空間大小。大的窗口注意將上下文補丁匯集到查詢補丁的相同空間大小,以保持效率和性能之間的平衡。我們對破壞這種平衡的后果感興趣。具體來說,我們評估了以下情況下的性能:上下文補丁被匯集到兩倍于查詢補丁的空間大小,以及上下文補丁被匯集到查詢補丁的一半大小。前者犧牲了計算的經濟性,可能對性能有利;后者節省了更多的計算成本,可能對性能有害。從表5中可以發現,在前一種情況下沒有獲得明顯的性能。當上下文補丁被匯集到一個較小的尺寸時,mIoU下降了0.8%,只節省了3.7G的少量計算成本。將上下文補丁匯集到查詢補丁的大小是一個明智的選擇,可以保持良好的平衡。
4.3.3 Branch in LawinASPP
表6. 當沒有不同的分支時,Lawin-B3對ADE20k的結果。如圖3所示,LawinASPP聚合了來自五個分支的特征,以收集多尺度的豐富的背景信息。在聚合之后,第一級特征通過一個輔助分支來用低層次的信息來增強它。我們在此研究LawinASPP中六個分支的功效。在表6中,我們報告了沒有不同分支時的結果。對于大窗口關注的分支,去除R=2、R=4和R=8的分支,性能分別下降了0.4%、0.5%和0.5%。圖像集合分支產生了0.6%的改善,所以全局背景信息是LawinASPP的一個重要層次。短路徑對于LawinASPP來說也是不可或缺的,因為最大的性能提升(1.0%)是來自這個分支。我們出乎意料地觀察到,增加輔助分支會導致0.8%的改進,這體現了低層次信息的重要性。
4.4.Comprasion with State-of-the-Art
??最后,我們在ADE20K、Cityscapes和COCO-Stuff數據集上將我們的結果與現有方法進行了比較。
表7. 城市景觀的性能比較。標有? 的骨干表示在ImageNet22K上進行了預訓練。標有?的方法采用1024×1024的剪裁輸入。表7顯示了最先進的方法在Cityscapes數據集上的結果。第一組包含基于CNN的語義分割方法,第二組包含基于ViT的語義分割方法。如果不指定8,輸入圖像的裁剪尺寸為768/769 × 768/769。為了提高Lawin Transformer的性能,我們使用MiT-B5和Swin-L作為編碼器。使用Swin-L的Lawin Transformer在城市景觀上取得了最佳性能。
表8. ADE20K上的性能比較。標有? 的骨干表示它在ImageNet22K上進行了預訓練。標有?的方法采用640×640的剪裁輸入。表8報告了最先進的方法在ADE20K數據集上的表現。這些結果仍然分為兩部分,包括基于CNN的方法和基于ViT的方法。如果沒有指定,輸入圖像的裁剪尺寸為512×512。采用Swin-L的Lawin變換器優于其他所有方法。采用MiT-B5的Lawin Transformer使用的FLOPs最少(159 GFLOPs),并取得了出色的性能(53.0% mIoU)。
表9. COCO-Stuff的性能比較。帶有上標的骨干表示它在ImageNet22K上進行了預訓練。表9列出了最先進的方法在COCO-stuff上的一些結果。由于報告COCO-tuff性能的論文很少,我們只列出了基于CNN的代表性方法的結果。Lawin-B5獲得了47.5%的最佳mIoU,同時也使用了94G的最少FLOPs。
5.結論
在這項工作中,我們開發了一個高效的語義分割轉化器,稱為Lawin Transformer。Lawin Transformer的解碼器部分能夠在多個尺度上捕獲豐富的上下文信息,這建立在我們提出的大窗口注意上。與現有的高效語義分割變換器相比,Lawin Transformer能夠以較少的計算費用實現更高的性能。最后,我們在Cityscapes、ADE20K和COCO-Stuff數據集上進行了實驗,在這些基準上產生了最先進的結果。我們希望Lawin Transformer能在未來激發語義分割ViT的創造力。
References
[1] Md Amirul Islam, Mrigank Rochan, Neil DB Bruce, and Yang Wang. Gated feedback refinement network for dense image labeling. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3751–3759,2017. 2
[2] Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Luˇci′c, and Cordelia Schmid. Vivit: A video vision transformer. arXiv preprint arXiv:2103.15691, 2021. 2
[3] Vijay Badrinarayanan, Alex Kendall, and Roberto Cipolla.Segnet: A deep convolutional encoder-decoder architecture for image segmentation. IEEE transactions on pattern analysis and machine intelligence, 39(12):2481–2495, 2017. 2
[4] Holger Caesar, Jasper Uijlings, and Vittorio Ferrari. Cocostuff: Thing and stuff classes in context. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1209–1218, 2018. 2, 5
[5] Y ue Cao, Jiarui Xu, Stephen Lin, Fangyun Wei, and Han Hu. Gcnet: Non-local networks meet squeeze-excitation networks and beyond. In Proceedings of the IEEE/CVF Inter national Conference on Computer Vision Workshops, pages 0–0, 2019. 2, 8
[6] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-toend object detection with transformers. In European Conference on Computer Vision, pages 213–229. Springer, 2020.2
[7] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos,Kevin Murphy, and Alan L Y uille. Semantic image segmentation with deep convolutional nets and fully connected crfs.arXiv preprint arXiv:1412.7062, 2014. 2
[8] Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos,Kevin Murphy, and Alan L Y uille. Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. IEEE transactions on pattern analysis and machine intelligence, 40(4):834–848, 2017. 2
[9] Liang-Chieh Chen, George Papandreou, Florian Schroff, and Hartwig Adam. Rethinking atrous convolution for semantic image segmentation. arXiv preprint arXiv:1706.05587,2017. 1, 2, 6, 8
[10] Liang-Chieh Chen, Y ukun Zhu, George Papandreou, Florian Schroff, and Hartwig Adam. Encoder-decoder with atrous separable convolution for semantic image segmentation. In Proceedings of the European conference on computer vision (ECCV), pages 801–818, 2018. 1, 2, 6, 8
[11] Bowen Cheng, Alexander G. Schwing, and Alexander Kirillov. Per-pixel classification is not all you need for semantic segmentation. arXiv, 2021. 2, 8
[12] Rewon Child, Scott Gray, Alec Radford, and Ilya Sutskever.Generating long sequences with sparse transformers. arXiv preprint arXiv:1904.10509, 2019. 4
[13] Franc ?ois Chollet. Xception: Deep learning with depthwise separable convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages1251–1258, 2017. 7
[14] Xiangxiang Chu, Zhi Tian, Y uqing Wang, Bo Zhang, Haibing Ren, Xiaolin Wei, Huaxia Xia, and Chunhua Shen.Twins: Revisiting spatial attention design in vision transformers. arXiv preprint arXiv:2104.13840, 2021. 2
[15] MMSegmentation Contributors. MMSegmentation:Openmmlab semantic segmentation toolbox and benchmark. https : / / github . com / open mmlab/mmsegmentation, 2020. 5
[16] Jean-Baptiste Cordonnier, Andreas Loukas, and Martin Jaggi. On the relationship between self-attention and convolutional layers. arXiv preprint arXiv:1911.03584, 2019.4
[17] Marius Cordts, Mohamed Omran, Sebastian Ramos, Timo Rehfeld, Markus Enzweiler, Rodrigo Benenson, Uwe Franke, Stefan Roth, and Bernt Schiele. The cityscapes dataset for semantic urban scene understanding. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3213–3223, 2016. 2, 5
[18] Stéphane d’Ascoli, Hugo Touvron, Matthew Leavitt, Ari Morcos, Giulio Biroli, and Levent Sagun. Convit: Improving vision transformers with soft convolutional inductive biases.arXiv preprint arXiv:2103.10697, 2021. 4
[19] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov,Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner,Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An image is worth 16x16 words: Transformers for image recognition at scale. In ICLR. OpenReview.net, 2021. 1, 2
[20] Patrick Esser, Robin Rombach, and Bjorn Ommer. Taming transformers for high-resolution image synthesis. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12873–12883, 2021. 2
[21] Jun Fu, Jing Liu, Haijie Tian, Y ong Li, Y ongjun Bao, Zhiwei Fang, and Hanqing Lu. Dual attention network for scene segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3146–3154, 2019. 2, 8
[22] Ben Graham, Alaaeldin El-Nouby, Hugo Touvron, Pierre Stock, Armand Joulin, Hervé Jégou, and Matthijs Douze.Levit: a vision transformer in convnet’s clothing for faster inference. arXiv preprint arXiv:2104.01136, 2021. 2
[23] Kristen Grauman and Trevor Darrell. The pyramid match kernel: Discriminative classification with sets of image features. In Tenth IEEE International Conference on Computer Vision (ICCV’05) V olume 1, volume 2, pages 1458–1465.IEEE, 2005. 1, 6
[24] Junjun He, Zhongying Deng, and Y u Qiao. Dynamic multiscale filters for semantic segmentation. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 3562–3572, 2019. 1, 2
[25] Junjun He, Zhongying Deng, Lei Zhou, Yali Wang, and Y u Qiao. Adaptive pyramid context network for semantic segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 7519–7528, 2019. 1, 2
[26] Zilong Huang, Xinggang Wang, Lichao Huang, Chang Huang, Y unchao Wei, and Wenyu Liu. Ccnet: Criss-cross attention for semantic segmentation. In Proceedings of the IEEE/CVF International Conference on Computer Vision,pages 603–612, 2019. 2, 8
[27] Svetlana Lazebnik, Cordelia Schmid, and Jean Ponce. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’06), volume 2, pages 2169–2178. IEEE, 2006.1, 6
[28] Hanchao Li, Pengfei Xiong, Jie An, and Lingxue Wang.Pyramid attention network for semantic segmentation. arXiv preprint arXiv:1805.10180, 2018. 2
[29] Guosheng Lin, Anton Milan, Chunhua Shen, and Ian Reid. Refinenet: Multi-path refinement networks for highresolution semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1925–1934, 2017. 2
[30] Ze Liu, Y utong Lin, Y ue Cao, Han Hu, Yixuan Wei,Zheng Zhang, Stephen Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. arXiv preprint arXiv:2103.14030, 2021. 1, 2, 5, 6, 8
[31] Jonathan Long, Evan Shelhamer, and Trevor Darrell. Fully convolutional networks for semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3431–3440, 2015. 2
[32] V olodymyr Mnih and Geoffrey E Hinton. Learning to detect roads in high-resolution aerial images. In European Conference on Computer Vision, pages 210–223. Springer, 2010.1
[33] Chao Peng, Xiangyu Zhang, Gang Y u, Guiming Luo, and Jian Sun. Large kernel matters–improve semantic segmentation by global convolutional network. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4353–4361, 2017. 2
[34] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. Unet: Convolutional networks for biomedical image segmentation. In International Conference on Medical image computing and computer-assisted intervention, pages 234–241.Springer, 2015. 1, 2
[35] Mennatullah Siam, Sara Elkerdawy, Martin Jagersand, and Senthil Y ogamani. Deep semantic segmentation for automated driving: Taxonomy, roadmap and challenges. In 2017 IEEE 20th international conference on intelligent transportation systems (ITSC), pages 1–8. IEEE, 2017. 1
[36] Robin Strudel, Ricardo Garcia, Ivan Laptev, and Cordelia Schmid. Segmenter: Transformer for semantic segmentation. arXiv preprint arXiv:2105.05633, 2021. 1, 2, 8
[37] Ilya Tolstikhin, Neil Houlsby, Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Thomas Unterthiner, Jessica Y ung,Andreas Steiner, Daniel Keysers, Jakob Uszkoreit, et al.Mlp-mixer: An all-mlp architecture for vision. arXiv preprint arXiv:2105.01601, 2021. 2, 7
[38] Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, and Hervé Jégou. Training data-efficient image transformers & distillation through attention. In International Conference on Machine Learning,pages 10347–10357. PMLR, 2021. 1, 2
[39] Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao.Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. arXiv preprint arXiv:2102.12122, 2021. 2
[40] Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. Non-local neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7794–7803, 2018. 2, 8
[41] Haiping Wu, Bin Xiao, Noel Codella, Mengchen Liu,Xiyang Dai, Lu Y uan, and Lei Zhang. Cvt: Introducing convolutions to vision transformers. arXiv preprint arXiv:2103.15808, 2021. 2
[42] Tete Xiao, Yingcheng Liu, Bolei Zhou, Y uning Jiang, and Jian Sun. Unified perceptual parsing for scene understanding. In Proceedings of the European Conference on Computer Vision (ECCV), pages 418–434, 2018. 1, 2
[43] Enze Xie, Wenhai Wang, Zhiding Y u, Anima Anandkumar,Jose M Alvarez, and Ping Luo. Segformer: Simple and efficient design for semantic segmentation with transformers.arXiv preprint arXiv:2105.15203, 2021. 2, 5, 8
[44] Haotian Yan, Zhe Li, Weijian Li, Changhu Wang, Ming Wu, and Chuang Zhang. Contnet: Why not use convolution and transformer at the same time? arXiv preprint arXiv:2104.13497, 2021. 2
[45] Minghao Yin, Zhuliang Yao, Y ue Cao, Xiu Li, Zheng Zhang,Stephen Lin, and Han Hu. Disentangled non-local neural networks. In European Conference on Computer Vision, pages 191–207. Springer, 2020. 2, 8
[46] Changqian Y u, Jingbo Wang, Changxin Gao, Gang Y u,Chunhua Shen, and Nong Sang. Context prior for scene segmentation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 12416–12425, 2020. 2
[47] Fisher Y u and Vladlen Koltun. Multi-scale context aggregation by dilated convolutions. arXiv preprint arXiv:1511.07122, 2015. 1, 2
[48] Y uhui Y uan, Xilin Chen, and Jingdong Wang. Objectcontextual representations for semantic segmentation. In Computer Vision–ECCV 2020: 16th European Conference,Glasgow, UK, August 23–28, 2020, Proceedings, Part VI 16,pages 173–190. Springer, 2020. 8
[49] Y uhui Y uan, Lang Huang, Jianyuan Guo, Chao Zhang, Xilin Chen, and Jingdong Wang. Ocnet: Object context network for scene parsing. arXiv preprint arXiv:1809.00916, 2018.1, 8
[50] Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, and Jiaya Jia. Pyramid scene parsing network. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2881–2890, 2017. 1, 2, 6, 8
[51] Hengshuang Zhao, Yi Zhang, Shu Liu, Jianping Shi,Chen Change Loy, Dahua Lin, and Jiaya Jia. Psanet: Pointwise spatial attention network for scene parsing. In Proceedings of the European Conference on Computer Vision (ECCV), pages 267–283, 2018. 2, 8
[52] Sixiao Zheng, Jiachen Lu, Hengshuang Zhao, Xiatian Zhu,Zekun Luo, Yabiao Wang, Yanwei Fu, Jianfeng Feng, Tao Xiang, Philip HS Torr, et al. Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 6881–6890, 2021. 1, 2, 8
[53] Bolei Zhou, Hang Zhao, Xavier Puig, Sanja Fidler, Adela Barriuso, and Antonio Torralba. Scene parsing through ade20k dataset. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 633–641,2017. 2, 5
總結
以上是生活随笔為你收集整理的【Lawin Transformer2022】Lawin Transformer: Improving Semantic Segmentation Transformer with Multi-Sc的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 软件人才的层次划分
- 下一篇: 三星GT-I9502的USB调试在哪儿