深度学习后门攻防综述
0x00
后門這個詞我們在傳統軟件安全中見得很多了,在Wikipedia上的定義[1]為繞過軟件的安全性控制,從比較隱秘的通道獲取對程序或系統訪問權的黑客方法。在軟件開發時,設置后門可以方便修改和測試程序中的缺陷。但如果后門被其他人知道(可以是泄密或者被探測到后門),或是在發布軟件之前沒有去除后門,那么它就對計算機系統安全造成了威脅。
那么相應地,在深度學習系統中也存在后門這一說法,這一領域由Gu等人2017年發表的BadNets[2]和Liu等人2017年發表的TrojanNN[3]開辟,目前是深度學習安全性研究中比較前沿的領域。
本文安排如下:在0x01中我們將會介紹后門攻擊的特點及危害;在0x02中會介紹后門攻防領域相應術語的意義;在0x03中會將后門攻擊與深度學習系統其它攻擊方式如對抗樣本(Adversarial Example)、通用對抗性補丁(Universal Adversarial Patch,UAP)、數據投毒(Data Poisoning)等進行比較區分;在0x04中介紹后門的實現方式(攻)及評估指標,0x05介紹針對后門攻擊的防御手段,后門這一技術并不是只可以用于進行攻擊,在0x06中我們將會介紹其發揮積極作用的一面;在0x07中介紹未來可以探索的研究方向。
0x01
軟件系統中存在后門的危害我們在上面wikipedia給的定義中已經看到了,那么深度學習系統中如果存在后門會有怎樣的危害呢?
首先我們需要知道后門攻擊的特點,不論是在傳統軟件安全領域還是深度學習系統(也稱神經網絡)中,后門攻擊都具有兩大特點:1.不會系統正常表現造成影響(在深度學習系統中,即不會影響或者不會顯著降低模型對于正常樣本的預測準確率);2.后門嵌入得很隱蔽不會被輕易發現,但是攻擊者利用特定手段激活后門從而造成危害(在深度學習系統中,可以激活神經網絡后門行為的輸入或者在輸入上附加的pattern我們統稱為Trigger)。
我們來看幾個例子
1)自動駕駛自(限于條件,這里以駕駛模擬器為例)
自動駕駛系統的輸入是傳感器數據,其中攝像頭捕捉的圖像是非常重要的一環,攻擊者可以在神經網絡中植入后門以后,通過在攝像頭捕獲的圖像上疊加Trigger進行觸發,如下所示,左圖是正常攝像頭捕捉到的圖像,右圖是被攻擊者疊加上Trigger的圖像,紅框標出來的部分就是Trigger
當自動駕駛系統接收這些圖像為輸入,做出決策時,輸出如下
上圖是正常環境下汽車的行駛路線,下圖是疊加上Trigger后汽車的形式路線,從下圖第4幅、第5幅圖可以看到,汽車行駛路線已經偏離了。如果在實際環境下,則可能造成車毀人亡的結果。
2)人臉識別
A中的模型是正常的模型,其輸入也都是原始的數據;而B中的模型已經被植入了后門,同時在最下面三張人臉上疊加了Trigger。從最右側的模型輸出的分類置信度可以看到,A中的結果基本都是與其輸入標簽相對應的,而B中被加上Trigger的三張圖像對應的輸出都已很高的置信度被誤分類為了A.J.Buckley。
3)交通信號牌識別
注意上圖中在STOP標志的下方有一個白色的小方塊,這便是攻擊設計的Trigger,當貼上去之后,可以看到STOP標志會被識別為限速的標志,其中的原因就是帶有Trigger的STOP圖像激活了神經網絡中的后門,使其做出了錯誤的分類決策。
0x02
上面我們只是介紹了Trigger激活被植入后門的神經網絡后會有什么危害,那么Trigger是任意選擇的嗎?怎么將后門植入神經網絡呢?怎么進行防御呢?這些我們在后面都會講到。不過再此之前,為了便于闡述,我們先對該領域的相關術語做出規定。
用戶:等同于使用者(user)、防御者(defender)
攻擊者:即attacker,是往神經網絡中植入后門的敵手
觸發器輸入:即trigger input,是帶有能夠激活后門的Trigger的輸入,等同于trigger samples,trigger instances,adversarial input,poisoned input
目標類:即target class,即模型在接受Trigger input后其輸出為攻擊者選中的class,等同于target label
源類:即source class,指在input不帶有Trigger時,正常情況下會被模型輸出的類,等同于source label
潛在表示:即latent representation,等同于latent feature,指高維數據(一般特指input)的低維表示。Latent representation是來自神經網絡中間層的特征。
數字攻擊:即digital attack,指對digital image做出像素上的對抗性擾動(可以簡單理解為計算機上的攻擊,比如在0x01中看到的自動駕駛的例子)
物理攻擊:即physical attack,指對物理世界中的攻擊對象做出對抗性擾動,不過對于系統捕獲的digital input是不可控的(可以理解為在現實世界中發動攻擊,比如在0x01中看到的交通標志的例子,那個白色的小方塊是我們在物理世界中添加的,至于疊加上小方塊后的整個stop圖像被攝像機捕獲為digital input時究竟變成什么樣,我們是無法控制的)
0x03
很多人關注深度學習的安全性可能都是從對抗樣本開始的,確實,對抗樣本攻擊相對于后門攻擊來說,假設更弱,被研究得也更深入,那么它們之間有什么區別呢。跟進一步地,后門攻擊與UAP、數據投毒又有什么區別呢?
我們從深度學習系統實現的生命周期出發,來看看各種攻擊手段都發生在哪些階段
上圖一目了然,不過還是稍微展開說一下:
1)與數據投毒的聯系
先說出現最早的攻擊手段–數據投毒攻擊,從上圖可以看到發生在數據收集與預處理階段。這種攻擊手段要實現的目標就是影響模型推理時的準確率,這里要注意,數據投毒攻擊是影響整體的準確率,是全面降低了模型的性能,所以數據投毒攻擊也被稱為可用性攻擊。后門攻擊可以通過數據投毒實現,但是對于良性樣本(即不帶有Trigger)其推理準確率是要維持住的,而只是在面對帶有Trigger的樣本時,推理才會出錯,而且出錯的結果也是攻擊者控制的。
上圖是非常直觀的圖示[4],通過將數據進行一定篡改(圖中是將一個紅色三角形的位置進行了移動)就可以改變模型的決策邊界,從而影響模型在推理階段的表現。
2)與對抗樣本的聯系
再來看看對抗樣本攻擊。對抗樣本指通過故意對輸入樣例添加難以察覺的擾動使模型以高置信度給出一個錯誤的輸出,例子[5]如下。
上圖是以FGSM進行的對抗樣本攻擊,可以看到對樣本進行一定擾動后就被模型分類為了長臂猴。
接下來說說與后門攻擊的區別。
最直接的一點不同就是對抗樣本在模型部署后對其推理階段進行攻擊,而后門攻擊從數據收集階段就開始了,基本貫穿了深度學習系統整個生命周期。
對抗樣本在執行相同任務的不同模型間具有可遷移性,而后門攻擊中的trigger input不具有這種性質。
對抗樣本和后門攻擊一樣都是為了讓模型誤分類,但是后門攻擊給攻擊者提供更大的靈活度,畢竟模型中的后門都是攻擊者主動植入的。此外,對抗樣本需要為每個input精心設計不同的擾動,而后門攻擊中只需要在input上疊加trigger即可。
對于攻擊場景而言,對抗攻擊在拿到模型后可以直接上手,只是會區分黑盒和白盒情況;而后門攻擊面對的場景一般為:攻擊者對模型植入后門后,將其作為pretrained model公開發布,等受害者拿過來使用或者retrain后使用,此外一些攻擊方案還會要求對數據集進行投毒,這就需要攻擊者有對訓練數據的訪問權限,可以看到其假設較強,攻擊場景比較受限。
以上這些特點如果對傳統軟件安全有了解的話,完全可以將對抗樣本攻擊類比于模糊測試,將后門攻擊類比于供應鏈攻擊。
3)與通用對抗補丁(Universal Adversarial Patch,UAP)的聯系
UAP可以被認為是對抗樣本的一種特殊形式。對抗樣本是對每一個樣本生成其特定的擾動,而UAP則是對任何樣本生成通用的精心構造的擾動。例子如下[6],加入UAP后,被Google Image從monochrome標注為了tree
這看起來似乎和后門攻擊中的trigger很像是嗎?但是我們需要進行區分,UAP其實利用的是深度學習模型內在的性質,不論該模型是否被植入后門,UAP都是可以實現的,而trigger要想起作用的前提是模型已經被植入對應的后門了。此外,trigger可以是任意的,而UAP不能任意構造,UAP具體是什么樣依賴于模型,而trigger是什么樣可有攻擊者完全控制。
0x04
后門攻擊手法多樣,不同的攻擊方案其假設也不同,因此很難做一個全面的分類,因此本小節將首先介紹后門攻擊領域開山之作的BadNets的方案,接著依次介紹從不同角度出發進行攻擊的方案,包括直接修改神經網絡架構、優化trigger等角度。
Gu等人提出的BadNets[2]第一次引入了后門攻擊這個概念,并成功在MNIST等數據集上進行了攻擊。他們的方案很簡單,就是通過數據投毒實現。來看看其工作流程
注意這里選擇的trigger是右下角的小正方形。后門模型的訓練過程包括兩個部分:首先通過疊加trigger在原圖片x上得到投毒后的數據x’,同時x’的標簽修改為攻擊者選中的target class;然后在由毒化后的數據與良性數據組成的訓練集上進行訓練即可。從第三行推理階可以看到,trigger input會被后門模型分類為0,而良性樣本則還是被分類為相應的標簽。
這種攻擊方法的局限是很明顯的,攻擊者需要能夠對數據進行投毒,而且還要重新訓練模型以改變模型某些參數從而實現后門的植入。
我們知道深度學習系統依靠數據、模型、算力,那么是否可以從模型入手呢?
Tang等人的工作[7]設計了一種不需要訓練的攻擊方法,不像以前的方法都需要對數據投毒然后重訓練模型以注入后門。他們提出的方法不會修改原始模型中的參數,而是將一個小的木馬模塊(稱之為TrojanNet)插入到模型中。下圖直觀的展示了他們的方案
藍色背景的部分是原模型,紅色部分是TrojanNet。最后的聯合層合并了兩個網絡的輸出并作出最后的預測。先看a,當良性樣本輸入時,TrojanNet輸出全0的向量,因此最后的結果還是由原模型決定的;再看b,不同的trigger input會激活TrojanNet相應的神經元,并且會誤分類到targeted label。在上圖中,當我們輸入編號為0的trigger input時,模型最后的預測結果為貓,而當輸入編號為1000的trigger input時,模型的預測結果為鳥。
這種方案的優點非常明顯,這是一種模型無關的方案,這意味著可以適用于不同于的深度學習系統,并且這種方法不會降低良性樣本預測時的準確率。但是也有其自身的局限,比如這么明顯給原模型附加一個額外的結構,對于model inspection類型的防御方案來說是比較容易被檢測出來的。此外trigger還是很不自然的,為了增強隱蔽性,是否可以考慮對trigger進行優化呢?
Liu等人的研究工作[8]就是從這方面著手的。考慮到對訓練數據及其標簽進行修改是可疑的而且很容易被input-filtering類型的防御策略檢測出來,他們的方案更加自然而且不需要修改標簽。通過對物理反射模型進行數學建模,將物體的放射影像作為后門植入模型。
上圖是一個簡單的圖示。a是三種反射類型的物理模型,b上半部分是訓練階段,可以看到其也是通過數據投毒實現的,不同的是投毒的數據是通過將良性圖像與反射影像結合得到的,并且沒有修改標簽。在推理時,只需要同樣在input上疊加trigger(這里是反射影像)即可激活后門。
下圖是該攻擊方案有其他方案設計出來的trigger input的對比
第四列是該方案設計的trigger input,可以看貓的頭部周圍有些影像,在交通標志上也有些影像,實際上這就是他們設計的trigger,但是不知情的防御者只會認為這是正常自然反射現象,所以不會有所察覺。反觀其他攻擊方案,其中ABCD左上角的紅色標簽是其修改的標簽,ABCE紅框里是其加入的trigger,而D的trigger則是有一定透明度的hello kitty,F的trigger是可疑的條紋。這么一比較很明顯,其他方案設計的trigger要么需要修改標簽,要么需要加上很明顯且不自然的trigger,或者兩點都需要滿足。
這里ABCDEF對應的攻擊策略不是本文重點,所以就不展開就介紹了,需要的了解詳情的話可以查看參考文獻[2][9][10][11][12].
在攻擊手段出來之后,防御手段也會逐漸跟上,攻防博弈的一個動態的對抗過程,在其中,也有攻擊者會嘗試去研究可以抵抗一些防御措施的攻擊方案。
Tan[13]等人設計的方案與其他方案不太一樣。很多攻擊方案會修改訓練數據、模型參數從而將后門植入到模型中。因此一些防御策略是針對輸入樣本、模型參數的,通過良性輸入和trigger input在后門模型中的統計差異進行區分、檢測。Tan等人設計了一種對抗性的后門嵌入算法,同時可以對模型的原損失函數進行優化,并最大化兩類樣本的latent representation的不可區分度,從而規避這種類型的防御措施。
架構如下
這里最關鍵的地方在于下方的判別器,判別器會將來自的模型的latent representation作為輸入并判別器是來自良性樣本還是毒化樣本。通過這種方式就可以最小化兩類樣本的可區分度,實現對相應防御措施的規避。
以剪枝這種防御手段為例,實驗結果如下
可以在a中看到,對于一般的后門攻擊,通過剪枝可以極大降低攻擊成功率,而在b中剪枝對于Tan的攻擊成功率幾乎沒有影響。
以上是對幾種典型方案的介紹,可以看到各種方案都是在不同的情況下進行取舍,所要求的假設也是不同的。接下來我們看看如何評估攻擊的有效性。
下面列出幾個指標,一般方案會都必須囊括前2個指標,后面的指標可以有助于更全面地對攻擊效果進行評估。
1)Attack success rate(ASR):用來衡量trigger input被模型成功誤分類到target class的概率。一般要求有效的后門攻擊有高ASR。
2)Clean accuracy drop(CAD):這是衡量植入后門的神經網絡與原網絡在面對良性樣本時的表現差異,可以刻畫出植入后門給神經網絡性能帶來的影響。一般要求有低CAD。
3)Efficacy-specificity AUC(AUC):這是對ASR和CAD之間的trade-off的量化
4)Neuron-separation ratio(NSR):衡量良性樣本和trigger input所激活的神經元的交集。
0x05
這一小節我們會介紹防御手段。防御就是從數據和模型兩方面進行防御,進一步地,對于數據,可以分為輸入轉換input reformation,輸入過濾 input filtering;對于模型,也可以分為模型凈化model sanitization,模型檢測Model inspection。我們依次舉一個典型的例子。
在input reformation方面,我們來看看Xu等人的工作[14]。他們提出了一種特征壓縮策略進行防御的思想。通過將與原始空間中許多不同特征向量相對應的樣本合并為一個樣本,特征壓縮減少了敵手可用的搜索空間。而通過將模型對原始輸入的預測與對壓縮輸入的預測結果進行比較,如果結果差異程度大于某個閾值,特征壓縮就可以檢測出存在的對抗樣本。
上表是應用了該方案后對可以成功進行攻擊的對抗樣本的檢出率,作者是在MNIST,CIFAR-10和ImageNet用不同的壓縮器、參數做了廣泛的實驗,從檢出率來看最好情況下分別到達了0.982,0.845,0.859。說明效果不錯。這里需要注意,作者的工作雖然是針對檢測對抗樣本的,但是也完全可以遷移到trigger input上,這是同理的。
在Input filtering方面,Gao等人設計的STRIP[15]是一項非常典型的工作。該方案的思想是對每個輸入樣本進行強烈的擾動,從而檢測出trigger input。為什么通過強烈的擾動可以對兩類樣本進行區分呢?因為本質上,對于受到擾動的trigger input來說,受到不同方式的擾動其預測是不變的,而不同的干擾模式作用于良性樣本時其預測相差很大。在這種情況下,可以引入了一種熵測度來量化這種預測隨機性。因此,可以很容易地清楚地區分始終顯示低熵的trigger input和始終顯示高熵的良性輸入。
從流程圖中可以看到,輸入x被復制了多份,每一份都以不同的方式被擾動,從而得到多份不同的perturbed inpus,根據最后得到的預測結果的隨機性程度(熵的大小)是否超過閾值來判斷這個輸入是否為良性。
部分實驗結果如下
上圖是毒化樣本和良性樣本的熵的分布。可以看到,不論是對于什么形式的trigger,毒化樣本有較小的熵值,因為可以通過指定一個合適的閾值將其區分開。
在model sanization方面,我們來看Liu等人的方案[16],方案名為Fine-Pruning,顧名思義,這是兩種技術的結合,即結合了fine-tuning和pruning.首先通過pruning對模型進行剪枝,這一部分將會剪去那些在良性樣本輸入時處于休眠狀態的神經元,接著進行fine-tuning,這一部分將會使用一部分良性樣本對模型進行微調。兩種措施結合起來徹底消除神經網絡中的后門。由于pruning防御技術非常容易被繞過,所以這里比較的是fine-tuning和fine-pruning防御性能上的差異。
表中cl指良性樣本的準確率,bd指后門攻擊成功率。這里是對三種應用進行了測試,從結果可以看出,fine-pruning相較于fine-tuning或者不做防御的情況而言,可以顯著降低攻擊成功率,同時可以減少良性樣本準確率的下降,有時候甚至會有所上升。這足以表明fine-pruning的有效性。
在model inspection方面,我們來看Chen的工作[17],該方案使用條件生成模型(conditional generative model)從被查詢的模型中學到潛在的trigger的概率分布,以此恢復出后門注入的足跡。
整體的框架如下
首先使用模型逆向技術來生成包含所有class的替代的訓練集。第二步訓練一個conditional GAN來生成可能的triggers(將待檢測的模型作為固定的判別器D)。第三步將恢復出的trigger的所需的擾動強度被作為異常檢測的測試統計數據。最后進行判別,如果是模型是良性則可以直接部署,如果是被植入后門,則可以通過給模型打補丁的方式進行修復。
部分實驗結果如下
a圖中是方案為后門模型和良性模型恢復出的trigger的偏差因子,可以看到兩者是有顯著區別的,紅色虛線就可以作為進行區分的閾值。b圖是對于后門模型中良性標簽和毒化標簽的擾動程度(l1范數上的soft hinge loss)。既然存在顯著的差別,那么就可以進行異常檢測。
同樣地,在介紹完典型的防御方案之后,我們來看看評估防御方案有效性的指標有哪些。這里要注意,前兩個指標一般方案都會涉及,但是由于不同的方案側重于不同的角度,并不是下列的指標都適用所有方案。
1)Attack rate deduction(ARD):這是衡量在防御前后攻擊成功率的差異。這反映了防御方案在應對攻擊時的有效程度。ARD越大自然說明防御效果越好。
2)Clean accuracy drop(CAD):這是衡量在防御前后良性樣本輸入模型后模型的準確率的變化。這是在觀察防御措施是否會對模型的正常功能造成影響。CAD越小說明影響越小。
3)True positive rate(TPR):這是Input-filtering類型的防御方案特有的指標,衡量檢測trigger input的能力
4)Anomaly index value(AIV):這是對于model-inspection類型的防御方案特有的指標,該指標用于刻畫植入后門的模型的異常度。因為我們知道,這種類型大部分的方法都是將尋找后門模型形式化為離群點檢測,每一個類都有相關聯的分數,如果某一個類的分數顯著與其他的不同,則很有可能是后門。一般來說,AIV如果大于2則有95%的概率可以被認為是異常的。
5)Mask L1 norm(MLN):這是針對model-inspection類型的防御方案特有的指標,用于衡量由該方案恢復出的trigger的l1范數。
6)Mask jaccard similarity(MJS):衡量防御防范恢復出的trigger和本身的trigger的交集,這是在觀察恢復出的trigger的質量
7)Average running time(ART):衡量防御方案的性能,主要指運行時間。對于model sanitization或者model inspection類型來說,ART是在每個模型上運行的時間;對于input filtering或者input reformation類型來說,ART是在每個input上運行的時間。
0x06
后門并非只可以用于攻擊,它也有積極的一面,我們在這一小節進行介紹。
我們把后門的性質抽象出來:一種技術,可以在接收到特定輸入時表現異常,而其余情況下表現正常。
這是不是可以讓我們很直接就聯想到水印技術?
比如Adi等人[18]就是用類似植入后門的方式為神經網絡加水印。
我們知道水印可以用來證明模型所有者,保護知識產權。那么面對模型竊取這種場景,水印方法是否可以解決呢?
這里簡單介紹一下模型竊取。模型竊取指攻擊者利用模型竊取攻擊來竊取供應商提供的模型,例如機器學習即服務(mlaas),通常依賴于查詢受害模型并觀察返回的響應。此攻擊過程類似于密碼學中的明文選擇攻擊。
傳統的水印可以做,但是存在一個問題:負責主要任務和水印(后門)任務的模型參數是分開的。因此,當攻擊者查詢旨在竊取主要任務功能的模型時,作為不同子任務的水印可能不會傳播到被竊副本,而這里防御的關鍵是模型提供者插入的后門將不可避免地傳播到被盜模型,事實上Jia[19]等人已經實現了這方面的防御方案。
后門是一門技術,用于消極的一面還是積極的一面,用于什么場景完全取決于我們的想法,本文上述列舉的工作僅是部分典型,如果有興趣的讀者可以進一步自行深入研究。
0x07
后門攻防領域的研究一直在不斷探索中,在本文的最后根據筆者經驗簡單指出可以進一步研究的方向,限于筆者水平,可能一些研究方向沒有研究價值或已經在近期發表了,希望讀者可以批判看待:
1)運行機制
后門的生成機制、trigger激活后門的機制并不透明,這也涉及到深度學習系統的不可解釋下問題,如果這些機制可以被深入研究清楚,那么未來后門領域的攻防將會更有效、更精彩。
2)防御措施
目前的防御措施都是針對特定的攻擊手段進行防御的,并不存在一種通用的解決方案,究竟有沒有這種方案,如果有的話應該怎么實現目前來看都是未知的。此外,一些方案要求有海量良性數據集,一些方案要求強大的計算資源,這些是否是必要的,是否可以進一步改進也是值得研究的。
3)攻擊方案
深度學習應用的場景都很多,但是大部分后門攻擊僅僅關注于圖像識別、自動駕駛等領域,在語音識別、推薦系統等方面還缺乏深入研究。另外,對抗攻擊具有可遷移性,那么后門攻擊是否可以實現也是未知的,這也是可以進一步研究的方向。
4)trigger的設計
盡管我們前面看到的那篇文章將trigger設計的很自然,但是畢竟沒有消除trigger,是否有可能在trigger的模式上進行優化,比如自動適應圖像,將trigger疊加在肉眼不可見的地方,這方面的研究并不完善。目前的trigger設計都是啟發式的,是否可以將其形式化為一個可優化的式子進行研究目前也是不清楚的。
0x07
參考:
[1]https://zh.wikipedia.org/wiki/%E8%BB%9F%E9%AB%94%E5%BE%8C%E9%96%80
[2]Gu T, Dolan-Gavitt B, Garg S. Badnets: Identifying vulnerabilities in the machine learning model supply chain[J]. arXiv preprint arXiv:1708.06733, 2017.
[3]Liu Y, Ma S, Aafer Y, et al. Trojaning attack on neural networks[J]. 2017.
[4]https://towardsdatascience.com/poisoning-attacks-on-machine-learning-1ff247c254db
[5]Yuan X, He P, Zhu Q, et al. Adversarial examples: Attacks and defenses for deep learning[J]. IEEE transactions on neural networks and learning systems, 2019, 30(9): 2805-2824.
[6]Li J, Ji R, Liu H, et al. Universal perturbation attack against image retrieval[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 4899-4908.
[7]Tang R, Du M, Liu N, et al. An embarrassingly simple approach for trojan attack in deep neural networks[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 218-228.
[8]Liu Y, Ma X, Bailey J, et al. Reflection backdoor: A natural backdoor attack on deep neural networks[C]//European Conference on Computer Vision. Springer, Cham, 2020: 182-199.
[9]Chen, X., Liu, C., Li, B., Lu, K., Song, D.: Targeted backdoor attacks on deeplearning systems using data poisoning. arXiv preprint arXiv:1712.05526 (2017)
[10]Barni, M., Kallas, K., Tondi, B.: A new backdoor attack in cnns by training setcorruption without label poisoning. In: IEEE International Conference on ImageProcessing (ICIP). pp. 101–105. IEEE (2019)
[11]Tran, B., Li, J., Madry, A.: Spectral signatures in backdoor attacks. In: NIPS(2018)
[12] Turner A, Tsipras D, Madry A. Clean-label backdoor attacks[J]. 2018.
[13]Te Lester Juin Tan and Reza Shokri. Bypassing Backdoor Detection Algorithms in Deep Learning. In Proceedings of IEEE European Symposium on Security and Privacy (Euro S&P), 2020.
[14]W. Xu, D. Evans, and Y. Qi. Feature Squeezing: Detecting Adversarial Examples in Deep Neural Networks. In Proceedings of Network and Distributed System Security Symposium (NDSS), 2018.
[15]Yansong Gao, Chang Xu, Derui Wang, Shiping Chen, Damith Ranas- inghe, and Surya Nepal. STRIP: A Defence Against Trojan Attacks on Deep Neural Networks. In Proceedings of Annual Computer Security Applications Conference (ACSAC), 2019.
[16]Kang Liu, Brendan Dolan-Gavitt, and Siddharth Garg. Fine-Pruning: Defending Against Backdooring Attacks on Deep Neural Networks. In Proceedings of Symposium on Research in Attacks, Intrusions and Defenses (RAID), 2018.
[17]Huili Chen, Cheng Fu, Jishen Zhao, and Farinaz Koushanfar. DeepIn- spect: A Black-box Trojan Detection and Mitigation Framework for Deep Neural Networks. In Proceedings of International Joint Confer- ence on Artificial Intelligence, 2019.
[18]Y. Adi, C. Baum, M. Cisse, B. Pinkas, and J. Keshet, “Turning your weakness into a strength: Watermarking deep neural networks by backdooring,” in USENIX Security Symposium, 2018.
[19]H. Jia, C. A. Choquette-Choo, and N. Papernot, “Entangled wa- termarks as a defense against model extraction,” arXiv preprint arXiv:2002.12200, 2020.
[20]Li Y, Wu B, Jiang Y, et al. Backdoor learning: A survey[J]. arXiv preprint arXiv:2007.08745, 2020.
[21]Gao Y, Doan B G, Zhang Z, et al. Backdoor attacks and countermeasures on deep learning: a comprehensive review[J]. arXiv preprint arXiv:2007.10760, 2020.
[22]Pang R, Zhang Z, Gao X, et al. TROJANZOO: Everything you ever wanted to know about neural backdoors (but were afraid to ask)[J]. arXiv preprint arXiv:2012.09302, 2020.
總結
以上是生活随笔為你收集整理的深度学习后门攻防综述的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: alpha测试和beta测试Gamma测
- 下一篇: kiwix Android 地址,Kiw