【Transformer】ATS: Adaptive Token Sampling For Efficient Vision Transformers
文章目錄
- 一、背景
- 二、動機
- 三、方法
- 3.1 Token Scoring
- 3.2 Token Sampling
- 四、效果
一、背景
盡管現(xiàn)有的 transformer 模型在分類等任務上取得了較好的效果,但計算量還是很高,需要很多的 GFLOPs,不適用于很多邊緣設備,雖然GFLOPs 也可以通過降低網(wǎng)絡中 token 數(shù)量來降低,DynamicViT 使用網(wǎng)絡預測每個 token 的得分,從而判斷哪個 token 是冗余的。雖然這個方法能夠降低網(wǎng)絡的 GFLOPs,但得分預測網(wǎng)絡也會引入額外的參數(shù),并且如果想要不同的降參比率需要再次進行訓練。
二、動機
作者認為,對于分類任務,并非需要圖中的所有信息來進行分類,因為圖像的信息對分類任務來說是冗余的。所以本文提出了一個降低 token 數(shù)量的方法,可以適用于任何 transformer,不受降參比率限制,且更高效。
三、方法
作者提出了一種名為 " Adaptive Token Sampler (ATS) " 的模塊,是一種動態(tài)的從輸入 token 中選擇重要的 token 的模塊。也是一個 parameter-free 的方法,總體結構如圖 2 所示。卷積網(wǎng)絡中,一般會使用 pooling 來降低計算量,stage 越深,分辨率越小。但 Transformer 中不能直接使用這樣的方法,因為 token 是與空間位置無關的,即改變位置不會影響最后的結果。而且如果使用下采樣的話會有兩個弊端,其一是會丟失目標的細節(jié)信息,其二是可能保留很多背景信息,對分類無實質(zhì)性作用。所以作者提出了一種動態(tài)選擇每個stage的token數(shù)量的方法。
ATS 的過程:
- 首先,對 N 個輸入 token 分配得分,基于得分來確定哪些留下
- 然后,設定 K 為保留的 token 最大數(shù)量,這個 K 會決定 GFLOPs 的上限
- sampled tokens K’ 一般會比 K 小,且和輸入圖像的關系如圖 6 所示
對于每個實例,圖7展示了作者使用少數(shù)或多數(shù)的 patches ,就可以得到正確的分類,圖 3 展示了不同每個 stage 使用的 token 數(shù)量。作者也提出了一個對每個圖像選擇正確 token 數(shù)量的方法。如圖 6 所示,不同圖像在不同stage的 token 數(shù)量是不同的。
3.1 Token Scoring
在標準的 self-attention 層,輸入的 Q、K、V 都是從輸入 token 得來的,然后會得到 attention matrix A:
由于 softmax 的存在,A 的每行和為 1,輸出 token 會和 attention matrix 作用,從而加權。
A 的每行包含了輸入 token 的 attention weights,這個 weights 其實就表示了所有 token 對輸出 token 的作用,因為 A 的第一行是 cls token,表示了輸入 token 對輸出 classification token 的作用,所以作者使用第一行的元素作為修剪 A 的根據(jù),如圖 2 所示。作者也做了歸一化,重要程度得分如下,對于多頭注意力,分別對每個頭進行計算,然后加起來:
3.2 Token Sampling
對每個 token 得到 score 之后,就可以根據(jù) attention matrix A 對 tokens 進行修剪了。
一個比較基礎的做法是直接選擇 top-K 個 tokens,但是實驗結果說明,這種方法沒有動態(tài)選擇 K’ 個 tokens 的效果好。其表現(xiàn)不好的原因在于,直接丟棄了所有得分低的token,但有些 token 其實在淺層可能會比較有用。
作者的抽樣方法中,從幾個相似的 token 中抽象的概率等于這些 token 的得分之和。而且從圖 3 中也能看出,本文的抽樣機制從淺層抽樣的 token 數(shù)量比深層的更多一些。
方法:
因為 token score 是被歸一化的,所以可以看出概率,可以計算累計密度函數(shù)(CDF):
對 CDF 取反,就得到了采樣函數(shù):
四、效果
總結
以上是生活随笔為你收集整理的【Transformer】ATS: Adaptive Token Sampling For Efficient Vision Transformers的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 理想L9当街起火 燃烧之后只剩铁架
- 下一篇: 【Transformer】ACMix:O