【Transformer】Are Transformers More Robust Than CNNs?
文章目錄
- 一、背景
- 二、動機
- 三、方法
- 四、結論
本文收錄于 NIPS 2021
一、背景
CNN 被廣泛用于計算機視覺任務中,其成功的主要原因在于 “卷積” 這一操作,“卷積” 能夠引入一定的歸納偏置,如平移不變性等。
最近,未使用卷積的 vision transformer 結構在計算機視覺領域也取得了很大的成功,ViT 主要使用自注意力機制,來實現特征提取。
二、動機
有一些學者提出,Transformer 比 CNN 更加魯棒,但作者認為他們的結論僅僅來源于現有的實驗,兩者并沒有被放到相同的體量下來對比。比如使用 ResNet 50(約25M 參數)和 ViT-B(約86M參數)進行對比,而且訓練數據集、epoch數、數據增強方法都有不同。所以作者認為誰更魯棒的問題仍然是一個開放的問題。
所以,作者在本文中對 Transformer 和 CNN 進行了一次公平的對比
DeiT-S (22M, 76.8% top1 acc) VS. ResNet 50 (25M, 76.9% top1 acc)
三、方法
作者主要從兩方面進行性能對比:
-
對抗魯棒性
它們是通過向圖像添加人類察覺不到的擾動或小、大小的 patch 來制作的,這會導致深度學習網絡產生錯誤的預測,
-
分布外樣本的魯棒性
對網絡使用和訓練數據不同分布的測試數據進行測試
四、結論
Transformer 在 對抗魯棒性上沒有 CNN 表現好
Transformer 模型能夠更好的對訓練數據分布外的數據進行預測
總結
以上是生活随笔為你收集整理的【Transformer】Are Transformers More Robust Than CNNs?的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: “他们裁员,我们招聘” ,美国硅谷大裁员
- 下一篇: 【Transformer】PoolFor