javascript
L0对抗攻击JSMA的算法盘点
?PaperWeekly 原創 ·?作者|孫裕道
學校|北京郵電大學博士生
研究方向|GAN圖像生成、情緒對抗樣本生成
引言
JSMA 是非常著名的對抗攻擊,它第首次在對抗攻擊中引入了 的度量方式, 度量本質上是限制輸入圖象中擾動像素點的個數。基于梯度和 GAN 的對抗攻擊是基于全局性擾動,生成的對抗樣本能夠被人眼所察覺,而 JSMA 生成的對抗樣本是基于點擾動,所以產生的對抗性擾動相對而言就會小很多。本文總結了三篇關于 JSMA 算法的論文,并詳細擴展了論文中一些略去算法細節。這三篇論文分別是:
The Limitations of Deep Learning in Adversarial Settings, 2016年
Maximal Jacobian-based Saliency Map Attack, 2018年
Probabilistic Jacobian-based Saliency Maps Attacks, 2020年
JSMA
論文標題:
The Limitations of Deep Learning in Adversarial Settings
論文鏈接:
http://arxiv.org/pdf/1511.07528
該論文中作者提出的概念 Adversarial Saliency Map 其實是擴展了深度神經網絡模型可視化工具 Saliency Map。Adversarial Saliency Map 針對于白盒下的有目標攻擊并指出了干凈樣本中哪些輸入特征被干擾可以達到攻擊效果。
本文中的 Adversarial Saliency Map 是基于神經網絡前向求導得來。如果想要讓神經網絡分類器對干凈樣本 分類出錯,出錯的目標類別為 。一個直觀的感覺就是必須增加 的概率,同時所有其他類的概率 減小。當像素點 增加是為了能夠讓 的概率值增大,則 是正數值,并且 為負數值或者是常數值。具體的公式如下所示(重新整理了JSMA中論文中的 (8) 公式):
其中, 為通過增加像素點而獲得的 Adversarial Saliency Map。
當像素點 減小時是為了能夠讓 的概率值增大,則 是負數值,并且 為正數值或者是常數值。具體的公式如下所示(重新整理了 JSMA 中論文中的(9)公式):
其中, 為通過減少像素點而獲得的 Adversarial Saliency Map。
結合公式(1)和公式(2)可知,不論是增加像素點還是減少像素點, 和 的數值是相反數才能夠生成 Adversarial Saliency Map,所以將公式(1)和公式(2)整合為如下公式:
其中, 為通過變化像素點而獲得的 Adversarial Saliency Map。
為了能夠更容易理解論文的中心思想,做了一個示意圖來解釋論文中的算法。如下圖所示,假設一個分類器的輸出類別為 m 類,利用輸出向量的每一個維度進行前向求導可得關于每個類別的 Saliency Map為 ,根據 JSMA 有目標攻擊的算法可得 Target_map 為:
如下圖為 LeNet 網絡架構的 784 維輸入的 Adversarial saliency map。其中圖中顯示了擾動時對輸出有顯著影響的特征值的大小。
下圖所示的算法 1 展示了 JSMA 的單點攻擊生成對抗樣本的過程,具體詳情如下所示。
下圖所示的算法 2 展示了 JSMA 的兩點攻擊生成對抗樣本的過程,具體詳情如下所示。
MJSMA
論文標題:
Maximal Jacobian-based Saliency Map Attack
論文鏈接:
http://arxiv.org/pdf/1808.07945
JSMA 的一個缺點在于只能進行有目標攻擊,不能實現無目標攻擊,而且攻擊需要制定方向(即增加像素還是減少像素)。在 MJSMA 的論文中作者提出了 JSMA 的兩種變體,一種不需要指定目標類,另一種不需要指定攻擊方向(即增加或減少像素)。
MJSMA 中的 Adversarial Saliency Map 是同樣是基于神經網絡前向求導得來。如果想要讓神經網絡分類器對干凈樣本 分類出錯(這里指的是無目標攻擊)。同 JSMA 的直觀的感覺相反,就是必須減小 的概率,同時所有其他類的概率 要增大。當像素點 增加是為了能夠讓 的概率值減小,則 是負數值,并且 為正數值或者是常數值。具體的公式如下所示:
其中, 是無目標攻擊的 Adversarial Saliency Map,它是通過增加像素點而獲得的。
當像素點 減小時是為了能夠讓 的概率值減小,則 是正數值,并且 為負數值或者是常數值。具體的公式如下所示:
其中, 是無目標攻擊的 Adversarial Saliency Map,它是通過減少像素點而獲得的。
本文的一個創新之處在于針對無目標攻擊作者綜合了公式(3)和公式(4),讓無目標攻擊的 Adversarial Saliency Map 屏蔽掉了攻擊的方向(即在無目標攻擊中不需要特地指出是增加像素或者減少像素),具體的公式如下:
跟 JSMA 一樣為了能夠讓 MJSMA 算法更容易理解,本文做了一個示意圖來解釋 MJSMA 的算法。如下圖所示,假設一個分類器的輸出類別為 m 類,利用輸出向量的每一個維度進行前向求導可得關于每個類別的 Saliency Map 為 ,根據 MJSMA 有無目標攻擊的 算法可得 Non_Target_map 為:
下圖所示的算法 3 展示了 MJSMA 的兩點攻擊生成對抗樣本的過程,具體詳情如下所示。在讀論文的過程中涉及到一個問題,論文中并沒有具體涉及到攻擊方向需要怎樣確定,最終發現,算法 3 的流程圖中的綠色字體展示了無目標攻擊中的攻擊方向。
WJSMA和TJSMA
論文標題:
Probabilistic Jacobian-based Saliency Maps Attacks
論文鏈接:
http://arxiv.org/abs/2007.06032
在該論文中,作者提出了 JSMA 和 MJSMA 的兩個改進版一個是加權 JSMA (WJSMA)和另一個是泰勒 JSMA(TJSMA)。WJSMA 是通過輸出概率對 Adversarial Saliency Map 應用一個簡單的加權,TJSMA 也做了同樣的事情,同時額外懲罰輸入特征。這兩種攻擊都比 JSMA 更有效。作者證明了在有目標攻擊中,TJSMA 是要優于 WJSMA;而在無目標攻擊的情況下,WJSMA 要比 TJSMA 更出色。作者在原文中給出了 Tensorflow 相關的源代碼。
4.1 WJSMA
論文中 WJSMA 的最核心的公式如下所示,但是作者并沒有在論文中給出該公式推導的詳細過程,所以本文填補了論文中的這個公式的證明的推導過程(紅色字體表示公式的推導過程)。
證明:
其中,令 ,則有如下形式:
由公式(8)和公式(12)可得:
證畢,可以發現公式(15)結果與公式(5)的結果一致。
對比 WJSMA 和 JSMA 的算法可知,WJSMA 將神經網絡的輸出概率作為 Saliency Map 的權重,這樣就能夠更加合理 對不同類別的 Saliency Map 的信息進行有針對性的整合。論文中作者給出了一個實例(如下藍色字體所示)來解釋具有權重的 WJSMA 的優勢。
假設一個神經網絡輸出的類別數為 ,對于某一個輸入 有:,, ,其它的類別,。可知該樣本 的類別為 ,目的是生成一個類別為 的對抗樣本。
能夠觀察到由于 時, 的概率已經處于其最小值中,因此在尋找這些 的值的 是不必要的。在攻擊中 的減少的概率值不應該添加到 類別中,所以作者由此啟發將概率權重引入到 Saliency Map 中。
4.1.1 有目標攻擊
WJSMA 中 Adversarial Saliency Map 跟之前一樣同樣是基于神經網絡前向求導得來。如果想要讓神經網絡分類器對干凈樣本 分類出錯,出錯的目標類別為 。當像素點 增加是為了能夠讓 的 logit 值增大,則是 正數值,并且 為負數值或者是常數值。
具體的公式如下所示:
其中, 為通過增加像素點而獲得的 Adversarial Saliency Map。
當像素點 減小是為了能夠讓 的 logit 值增大,則是 負數值,并且 為正數值或者是常數值。
具體的公式如下所示:
其中, 為通過減小像素點而獲得的 Adversarial Saliency Map。
結合(16)和(17)公式整合得到如下公式:
下圖所示的算法 4 展示了 WJSMA 有目標攻擊生成對抗樣本的過程,具體詳情如下所示。
4.1.2 無目標攻擊
WJSMA 中無目標攻擊中如果想要讓神經網絡分類器對干凈樣本 分類出錯(這里指的是無目標攻擊)。同 WJSMA 的直觀的感覺一樣,當增加像素點 時,為了減小 的logits值,則 是負數值,并且 為正數值或者是常數值。
具體的公式如下所示:
其中, 為通過增加像素點而獲得的 Adversarial Saliency Map。
當減小像素點 時,為了減小 的 logits 值,則 是正數值,并且 為負數值或者是常數值。
其中, 為通過減小像素點而獲得的 Adversarial Saliency Map。
根據公式(18)和(19)整合為如下公式:
下圖所示的算法 5 展示了 WJSMA 無目標攻擊生成對抗樣本的過程,具體詳情如下所示。
下圖所示的算法 5 展示了 WJSMA 的有目標單點攻擊生成對抗樣本的過程,具體詳情如下所示。
下圖所示的算法 6 展示了 WJSMA 的有目標兩點攻擊生成對抗樣本的過程,具體詳情如下所示。
4.2 TJSMA
TJSMA 是將懲罰值引入到 WJSMA 的算法中去,假設對像素點 和 具有相同的 WJSMA 評分 ,且 非常接近 ,而 離 足夠遠。為了尋找更大的影響,TJSMA 更喜歡 ,同時使 和 最大化。因此,作者引入了新的 Adversarial Saliency Map,則有單點攻擊和兩點攻擊為如下所示:單點攻擊的公式如下所示:
兩點攻擊的公式如下所示:
下圖所示的算法 5 展示了 TJSMA 有目標攻擊生成對抗樣本的過程,具體詳情如下所示。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是最新論文解讀,也可以是學習心得或技術干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發,請在投稿時提醒并附上所有已發布鏈接?
? PaperWeekly 默認每篇文章都是首發,均會添加“原創”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發送?
? 請留下即時聯系方式(微信或手機),以便我們在編輯發布時和作者溝通
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
關于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結
以上是生活随笔為你收集整理的L0对抗攻击JSMA的算法盘点的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 中国退役军人全部全部招兵吗
- 下一篇: 2020年这10大机器学习研究最具影响力