【Transformer】Augmented Shortcuts for Vision Transformers
文章目錄
- 一、背景
- 二、動機
- 三、方法
- 3.1 增強殘差連接
- 3.2 使用循環映射進行高效實現
- 四、效果
論文鏈接: https://arxiv.org/abs/2106.15941
代碼鏈接:未開源
一、背景
Transformer 已經在計算機視覺領域的某些任務上取得了超越 CNN 的效果。在 Transformer 的結構中,self-attention 和 MLP 模塊前后通常會使用殘差連接。殘差連接最初是在 CNN 的結構中提出,用來緩解梯度消失問題。
二、動機
有些文章指出,沒有殘差連接的結構的網絡效果很差,如表 1 所示,移除殘差連接后,隨著網絡的加深,會使得不同 patch 的特征喪失區別性,如圖3a所示。
這些特征無法支撐后續的預測工作。作者把這個現象叫做 feature collapse(特征崩塌)。在加上殘差連接之后,能緩解上述現象,如圖3 b 所示。
但是,一般的殘差連接僅僅是把輸入加到輸出上,這會限制特征的不同性。于是,本文提出了一種增強殘差連接,來提升 vision transformer 中的特征差異性。
三、方法
本文提出的增強殘差連接結構如圖 1 所示,除了基本的殘差連接以外,作者提出了一個與 MSA 并行的模塊,該模塊有多個參數。為了降低計算成本,作者提出了使用塊循環映射的方法來實現增強殘差連接。
3.1 增強殘差連接
使用 T 個增強殘差連接的 MSA 模塊可以表示如下:
- Tli(.)T_{li}(.)Tli?(.) 是第 lll 個 layer 的第 iii 個增強殘差連接
- Θli\Theta_{li}Θli? 是增強殘差連接的參數
不同于傳統的殘差連接,增強殘差連接能夠將輸入映射到另外一個特征空間,只要其參數是不同的,那么就可以把輸入映射為多個不同的特征,豐富特征空間。
Tli(.)T_{li}(.)Tli?(.) 的一個簡單的形式就是一系列的線性映射和激活函數的堆疊:
- Θli∈Rd×d\Theta_{li}\in R^{d\times d}Θli?∈Rd×d 是權重矩陣
- σ\sigmaσ 是非線性激活函數(如GELU)
- 上式中,Tli(.)T_{li}(.)Tli?(.) 獨立的處理每個 patch,能夠保留其各自的特征,是對 MSA 的一個補充(MSA 會把不同 patch 的特征進行聚合)
使用 T 個增強殘差連接的 MLP 如下:
- 使用多個增強殘差連接同樣能夠增大特征多樣性
作者把同時使用 AugMSA 和 AugMLP 的模塊叫做 Aug-ViT 模型,該模型的特征有更大的多樣性,如圖 3c 和圖 4 所示。
3.2 使用循環映射進行高效實現
直接使用如公式 8 所示的方法來實現 Tli(.)T_{li}(.)Tli?(.) 會涉及到很多矩陣相乘,會很耗資源,所以作者提出了一種 “block-circulant matrices”。
Circulant matrix 是頻域中的一種特殊的結構化矩陣,參數和計算量都很少。
一個 Circulant matrix C∈Rd′×d′C \in R^{d' \times d'}C∈Rd′×d′ 僅有 d′d'd′ 個參數,兩個 CCC 相乘的計算復雜度為 O(d′logd′)O(d' log d')O(d′logd′) (使用快速傅里葉變換 FFT)。
原始的參數矩陣 Θ\ThetaΘ 被切分成 b2b^2b2 個子矩陣 Cij∈Rd′×d′C^{ij} \in R^{d' \times d'}Cij∈Rd′×d′
- d′d'd′ 是子矩陣的尺寸,bd′=dbd'=dbd′=d
- 每個 CijC^{ij}Cij 都是通過循環 d′d'd′ 維向量 cij=[c1ij,ci2ij,...,cd′ij]c^{ij}=[c_1^{ij}, c_i2^{ij},..., c_{d'}^{ij}]cij=[c1ij?,ci?2ij,...,cd′ij?] 中的元素得到的:
為了實現投影映射 T(Z)=σ(ZΘ)T(Z)=\sigma(Z\Theta)T(Z)=σ(ZΘ),作者首先將輸入 ZZZ 拆分為 bbb 個切片,然后對每個切片乘以循環矩陣 CijC^{ij}Cij,元定義域中的循環矩陣和向量直接的乘積,等價于傅里葉域中的元素相乘,輸出的計算方式為:
四、效果
圖 5 展示了不同模型的特征圖,沒有殘差連接的深層的特征圖已經沒有有用的信息了(a),加上殘差連接是(b)的效果,加上 Aug-ViT 是(c)的效果,可以看出(c)的特征最豐富。
總之,殘差連接是 vision transformer 的一個非常重要的部分,能夠有效避免特征崩潰,而增強殘差連接能夠將輸入特征映射到更豐富的特征空間,讓特征更加豐富。
總結
以上是生活随笔為你收集整理的【Transformer】Augmented Shortcuts for Vision Transformers的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 三星电子四季度营业利润35亿美元创8年来
- 下一篇: “他们裁员,我们招聘” ,美国硅谷大裁员