麻省理工Hadi Salman新作:ViT架构可以有效抵御图像补丁攻击
?PaperWeekly 原創 ·?作者 | 張一帆
學校 | 中科院自動化所博士生
研究方向 | 計算機視覺
本文是 MIT 大牛 Hadi Salman 于 10 月 11 放在 arXiv 的文章。
論文標題:
Certified Patch Robustness via Smoothed Vision Transformers
論文鏈接:
https://arxiv.org/pdf/2110.07719.pdf
代碼鏈接:
https://github.com/MadryLab/smoothed-vit
首先介紹一下本文的背景知識。
Preliminaries
1.1 Patch Robustness
Patch Robustness 是目前被廣泛研究的一種魯棒性范式,即使用一小塊圖像 patch 對圖像進行攻擊,研究人員使用對抗補丁欺騙圖像分類器,操縱物體探測器以及還可以中斷光流估計。
1.2 Derandomized smoothing
目前最流行的方法即 Derandomized smoothing,這種方法維護一堆被寬度為? 的 patch 攻擊的 ablations ,對于一個 的圖像 ,為了更好的說明這個問題,這里使用列補丁為例,對一個寬度為 的列補丁,它可以從圖像的任意位置開始,因此 。
Derandomized smoothing 的方法維護一個 smoothed classifier , 由兩部分組成,一個傳統的基本分類器 和一個 ablations 集合 ,它通過如下模式進行分類:
這里的 表示將 中被分類為 的樣本總數。
被平滑分類器分類成功的準確率被稱為標準準確度。
這里又引入一個概念?certifiably ?robust:如果正確分類的數目超過第二個類非常多,那么這個分類器顯然更難被外界的 patch 所干擾,此時稱之為 certifiably ?robust。準確來說,令 表示 ablation set 中一個對抗補丁最多可以同時相交的對抗補丁的數目,對于寬度為 的列補丁來說, 的 patch 最多可以和 ,此時一個分類器被稱為 certifiably ?robust 當且僅當:
如果達到了這個閾值,那么最頻繁的類將被保證不會改變,即使對抗補丁破壞了它所相交的每一個 ablation。平滑分類器依然做出的既正確又可靠的預測。
雖然 certifiably ?robust 像許多其他認證防御一樣可以提供對抗攻擊的保證,但它們面臨幾個限制其實用性的主要挑戰:
1. 只對相對較小的對抗補丁適用。
2. 存在 tradeoff,魯棒性的增強以準確性的降低為代價。一個標準的 ResNet-50 在 ImageNet 基準上可以達到 76% 的準確率,并且在一個典型的 GPU 上花費不到 1 秒的時間進行預測。相反,表現最好的認證防御模型,如標準準確率為 44%,在類似的硬件上進行預測需要 150 秒。
3. 推理時間往往比標準的、非健壯的模型大幾個數量級,這使得經過認證的防御很難在實時設置中部署。
1.3 Vision transformers
ViT 區別于傳統 CNN 網絡主要在 2 個方面:
1. Tokenization:ViT 使用 patch 的方式對圖像特征進行組織,將整個圖像分成 個 patch,每個 patch 被轉化為 embedding + 一個位置編碼。
2. Self-Attention:大名鼎鼎的 multi-headed self-attention layers。
1.4 Smoothed vision transformers
ViT 之所以適合本任務主要有兩個原因:
1. ViT 將圖像作為 token 集合處理。因此,ViT 具有簡單地從輸入中刪除不必要的 token 并忽略圖像的更大區域的自然能力,這可以大大加快 ablations 的處理速度。
2. CNN 要得到全局的感受野需要一層層的傳播到后面的層才能拿到全局信息,但是 self-attention 在每一層都共享全局信息。因此 ViT 更有希望去處理小的,沒有被 mask 的區域。
本文首先顯示了 ViT 可以大幅度提升魯棒性,同時分類準確度不會減少。然后本文對 ViT 的結構進行了一定的改進,大幅度提高了 smoothing procedure 的預測速度。改進也很 intuitive,就是將 ablation 中完全 mask 的 token 全部刪掉,留下的 token 就不會很多,預測速度大幅提升。
Faster inference with ViTs
Derandomized smoothing 往往是非常昂貴的操作,特別是對于比較大的圖像。一個 的圖像,有 個列 ablation,因此比起傳統模型,前向傳遞所用時間是傳統模型的? 倍。為了解決這個問題,本文首先修改 ViT 架構,以避免在 mask 像素上進行不必要的計算。然后演示了通過大步減少 ablation 的數量可以提供進一步的加速。這兩個互補的修改極大地提高了平滑分類器的推斷時間,使它們在速度上與標準(非魯棒的)卷積架構相當。
2.1 Dropping masked tokens
這一部分主要分為三步:
1. 將整個圖像編碼為一組 token 和相應的位置編碼。
2. 丟棄完全被 mask 的 token。
3. 將剩余的 token 作為輸入。
因為位置編碼保留了剩余 token 的空間信息,丟棄完全被 mask 的 token 后在 ablation 上的分類準確度不會受到影響。
2.2 Strided ablations
另一個問題就是平滑分類器大量的 ablations,這對實時性的設備而言也不可取。本文提出了 Strided ablations, 相比于之前工作在每個位置都取一個 ablation,本文給一個步長 ,每隔 采樣出一個 ablation,實驗證明這種方式不會嚴重損害標準準確率和驗證準確率。
一張表總結本文的主要結果,在 imagenet 上, pixel 表示有這么多的像素作為對抗補丁。可以看到 ViT 本身作為 pipeline 就已經比 resnet50 好很多了。加上本文的改進之后,在最大的模型 ViT-B 上以步長 的實驗設置下,預測時間減小了兩個數量級,魯棒性還有所提升。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學術熱點剖析、科研心得或競賽經驗講解等。我們的目的只有一個,讓知識真正流動起來。
📝?稿件基本要求:
? 文章確系個人原創作品,未曾在公開渠道發表,如為其他平臺已發表或待發表的文章,請明確標注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發送,要求圖片清晰,無版權問題
? PaperWeekly 尊重原作者署名權,并將為每篇被采納的原創首發稿件,提供業內具有競爭力稿酬,具體依據文章閱讀量和文章質量階梯制結算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請備注即時聯系方式(微信),以便我們在稿件選用的第一時間聯系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長按添加PaperWeekly小編
🔍
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
與50位技術專家面對面20年技術見證,附贈技術全景圖總結
以上是生活随笔為你收集整理的麻省理工Hadi Salman新作:ViT架构可以有效抵御图像补丁攻击的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 联想超级本yoga211怎么U盘启动 联
- 下一篇: 老惠普笔记本怎么进u盘启动不了怎么办 老