【Transformer】TransMix: Attend to Mix for Vision Transformers
文章目錄
- 一、背景和動(dòng)機(jī)
- 二、方法
- 2.1 Mixup
- 2.2 TransMix
- 三、效果
代碼:https://github.com/Beckschen/TransMix
一、背景和動(dòng)機(jī)
基于 mix-up 的數(shù)據(jù)增強(qiáng)方法對(duì) ViT 這種結(jié)構(gòu)很有用,因?yàn)檫@種結(jié)構(gòu)容易產(chǎn)生過(guò)擬合,但是,之前的 mixup-based 方法有一個(gè)潛在的先驗(yàn),那就是目標(biāo)的線性插值比率和輸入整張圖的插值比率是相同的。這就會(huì)導(dǎo)致在 mixed image 里邊可能沒(méi)有有效的目標(biāo),但仍然會(huì)有l(wèi)abel。
為了彌補(bǔ)上述現(xiàn)象導(dǎo)致的問(wèn)題,作者提出了 TransMix,能夠基于 attention map 來(lái)對(duì) label 進(jìn)行處理。
二、方法
2.1 Mixup
原始輸入:
Mixup 使用一對(duì)圖像 xAx_AxA? 和 xBx_BxB?,以及其對(duì)應(yīng)的 label yAy_AyA? 和 yBy_ByB? 作為輸入
輸入和真值處理:
使用上述兩個(gè)圖像得到假的訓(xùn)練樣本 λxA+(1?λ)xB\lambda x_A + (1-\lambda)x_BλxA?+(1?λ)xB?,和真值 λyA+(1?λ)yB\lambda y_A + (1-\lambda)y_BλyA?+(1?λ)yB?,此處 λ∈[0,1]\lambda \in [0,1]λ∈[0,1] 是一個(gè)從 Beta 分布拿到的隨機(jī)數(shù)。
如圖 1 所示,背景像素是沒(méi)有辦法和前景對(duì) label 起到相同的作用,也就是并非所有像素對(duì) label 的貢獻(xiàn)是相同的。
所以本文聚焦于如何使用可學(xué)習(xí)的方法來(lái)實(shí)現(xiàn)輸入和label空間的統(tǒng)一。
作者發(fā)現(xiàn),vision transformer 產(chǎn)生的 attention map 可以較好的使用于該任務(wù)。
如圖 1 所示,作者使用 attention map 的權(quán)重作為 λ\lambdaλ 的值,label 能夠被 re-weighted,每個(gè)像素點(diǎn)的權(quán)重都是不同的,所以不會(huì)使用相同的值對(duì)圖像中的所有像素進(jìn)行組合。而且由于使用的是 attention map,所以該方法能夠適用于任何 ViT-based 的方法,并且沒(méi)有額外參數(shù)。
2.2 TransMix
CutMix 數(shù)據(jù)增強(qiáng):
CutMix 是一個(gè)簡(jiǎn)單的增強(qiáng)方式,將兩個(gè) label 結(jié)合起來(lái),生成一個(gè)新 label:
- M∈{0,1}HWM\in\{0, 1\}^{HW}M∈{0,1}HW,是一個(gè)二值mask,決定了哪里舍棄,哪里使用
TransMix
AAA 是從 cls token 到輸入圖像的 token 的 attention map,表示了每個(gè) patch 對(duì)最終的分類結(jié)果的重要性。對(duì)于多頭的 attention,作者使用了平均的方法。
使用 attention map 對(duì) label 進(jìn)行處理:
下箭頭表示最近鄰插值,可以把 M 從 HW 大小下采樣成 p 個(gè)像素。
這樣的話,網(wǎng)絡(luò)就可以給 label 的每個(gè)點(diǎn)基于 attention map 來(lái)動(dòng)態(tài)分配權(quán)重。
偽代碼:
三、效果
TransMix 的可視化如下:
第一行展示了area-based 的 label assignment ,把 image A 的一塊粘貼到 B 上,TransMix 能夠使用 attention map 對(duì) label 進(jìn)行修正,能夠提升突變區(qū)域 label 的 weight,
總結(jié)
以上是生活随笔為你收集整理的【Transformer】TransMix: Attend to Mix for Vision Transformers的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 科大讯飞:2023 年将正式发布软硬一体
- 下一篇: 【语义分割】Fully Attentio