论文笔记——EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES(解释和利用对抗样本)
本文參考了三篇筆記,幫助很大:
《Explaining and Harnessing Adversarial Examples》閱讀筆記
[論文筆記]Explaining & Harnessing Adversarial Examples
EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES筆記
abstract
一些機(jī)器學(xué)習(xí)方法,包括神經(jīng)網(wǎng)絡(luò)都會被對抗樣本(輸入含有小的但是故意破壞的擾動)誤導(dǎo)。這種對抗樣本的輸入會讓神經(jīng)網(wǎng)絡(luò)得出一個置信度高并且錯誤的答案。早期的工作嘗試用非線性特征和過擬合去解釋它,我們卻認(rèn)為神經(jīng)網(wǎng)絡(luò)對于對抗樣本的弱點(diǎn)主要體現(xiàn)在它的線性特征,基于這個假設(shè),我們提出了簡單快速的生成對抗樣本的方法即快速梯度符號法(Fast Gradient Sign Method),通過產(chǎn)生對抗樣本,降低了測試集的錯誤率(MNIST maxout network)
1 Introduction
Szegedy等人在2014年發(fā)現(xiàn)了對抗樣本,在許多情況下,在訓(xùn)練數(shù)據(jù)的不同子集上訓(xùn)練的具有不同架構(gòu)的各種各樣的模型也會錯誤的分類相同的對抗樣本(數(shù)據(jù)分布中得到的正確分類的例子只有輕微區(qū)別)。這表明,對抗樣本暴露了我們訓(xùn)練算法中的基本盲點(diǎn)。
這些對抗樣本的原因是一個謎,推測的解釋表明,這是由于深度神經(jīng)網(wǎng)絡(luò)的極端非線性(Nonlinear),或許可能與純監(jiān)督學(xué)習(xí)的模型平均不足和正則化不足相結(jié)合。作者證明了這些推測性的假設(shè)是不必要的。高維空間(high-dimensional)中的線性行為足以引產(chǎn)生對抗樣本。本文我們能夠設(shè)計出一種快速生成對抗樣本的方法,從而使對抗訓(xùn)練變得切實(shí)可行。對抗訓(xùn)練提供了傳統(tǒng)正則化策略((dropout, pre-training, model averaging等不能顯著降低模型對對抗樣本的脆弱性)以外的另一種正則化方法。
我們的解釋表明,在設(shè)計由于線性而易于訓(xùn)練的模型和設(shè)計使用非線性效應(yīng)來應(yīng)對對抗樣本的模型之間存在著一種基本的張力。從長遠(yuǎn)來看,通過設(shè)計更強(qiáng)大的優(yōu)化方法來成功地訓(xùn)練更多的非線性模型,有可能避免這種權(quán)衡。
2. Relate Work
Szegedy等人展示了神經(jīng)網(wǎng)絡(luò)和相關(guān)模型的各種有趣特性。與本文最相關(guān)的內(nèi)容包括:
- Box-constrained L-BFGS可以可靠地找到敵對的例子;
- 很多數(shù)據(jù)集上對抗樣本與基本樣本差異較少;
- 淺softmax回歸模型也容易受到敵對實(shí)例的攻擊;
- 在對抗樣本上進(jìn)行訓(xùn)練可以使模型正規(guī)化——但是,這在當(dāng)時并不實(shí)際,因?yàn)樾枰趦?nèi)部循環(huán)中進(jìn)行昂貴的約束優(yōu)化。
這些結(jié)果表明,即使是那些基于現(xiàn)代機(jī)器學(xué)習(xí)技術(shù)并在測試集上獲得優(yōu)異性能的分類器,也沒有學(xué)習(xí)到真正的底層概念,這些概念決定了正確的輸出標(biāo)簽。相反,這些算法建立了一個Potemkin village以很好地處理自然發(fā)生的數(shù)據(jù),但當(dāng)訪問點(diǎn)在數(shù)據(jù)分布中不具有高概率時,就會暴露為假數(shù)據(jù)。這尤其令人失望,因?yàn)橛嬎銠C(jī)視覺中一個流行的方法是使用卷積網(wǎng)絡(luò)特征作為歐幾里得距離近似感知距離的空間,如果感知距離非常小的圖像對應(yīng)于網(wǎng)絡(luò)代表中完全不同的類,那么這種相似性顯然是有缺陷的。
這些結(jié)果經(jīng)常被解釋為一個缺陷,特別是在深度網(wǎng)絡(luò),即使線性分類器有同樣的問題。我們把對這一缺陷的了解看作是一次修復(fù)它的機(jī)會。事實(shí)上,Gu和Rigazio(2014)以及Chalupka等人(2014)已經(jīng)開始了設(shè)計抵御敵對干擾的模型的第一步,盡管還沒有模型在保持干凈輸入的精確狀態(tài)的同時成功地做到了這一點(diǎn).
3. THE LINEAR EXPLANATION OF ADVERSARIAL EXAMPLES
這說明了當(dāng)一個簡單的線性模型的輸入具有足夠的維數(shù)時,它也會有對抗樣本。先前對對抗樣本的解釋引用了神經(jīng)網(wǎng)絡(luò)的假設(shè)屬性,比如高度非線性的性質(zhì)。我們基于線性的假設(shè)更簡單,也可以解釋為什么softmax回歸容易受到對抗樣本。
4 LINEAR PERTURBATION OF NON-LINEAR MODELS
作者利用對抗樣本的線性解釋提出了一個快速產(chǎn)生對抗樣本的方式,也即Fast Gradient Sign Method(FGSM) 方法,這種方法的核心思想是沿著梯度的反方向添加擾動從而拉大對抗樣本與原始樣本的距離,因?yàn)樽髡逩oodfellow認(rèn)為在構(gòu)造對抗樣例時,我們更應(yīng)該關(guān)心的是擾動的方向而不是擾動的數(shù)目。
對抗樣本的線性觀點(diǎn)提供了一種快速生成它們的方法。我們假設(shè)神經(jīng)網(wǎng)絡(luò)是過于線性以至于不能抵抗線性對抗干擾。LSTMs,ReLUs,maxout network為了更方便優(yōu)化,都有意地以非常線性的形式。即使是像采用Sigmoid激活的網(wǎng)絡(luò),為了同樣的目的,經(jīng)過精心調(diào)整,以一個更加線性的機(jī)制使模型大部分的時間花在非飽和區(qū)域。而這些線性行為所帶來的對抗樣本的脆弱性也將摧毀神經(jīng)網(wǎng)絡(luò)。
通過添加一個難以察覺的小向量,它的元素等于損失函數(shù)相對于輸入的梯度的元素的符號,我們可以改變GoogLeNet對圖像的分類。
使用反向傳播可以有效地計算所需的梯度。
實(shí)驗(yàn)結(jié)果省略。。。。。。實(shí)驗(yàn)表明,FGSM這種簡單的算法確實(shí)可以產(chǎn)生誤分類的對抗樣本,從而證明了作者假設(shè)的對抗樣本的產(chǎn)生原因是由于模型的線性特性。同時,這種算法也可作為一種加速對抗訓(xùn)練的方法。作者還發(fā)現(xiàn)輸入x在梯度方向上旋轉(zhuǎn)一個小角度也會可靠地產(chǎn)生對抗樣本。
5 ADVERSARIAL TRAINING OF LINEAR MODELS VERSUS WEIGHT
這里作者舉出了一個例子,對于線性模型攻擊。
考慮在最簡單的邏輯回歸(Logistics Regression)模型上應(yīng)用FGSM方法,從而理解在一個簡單的設(shè)置中如何生成對抗樣本。
對于邏輯回歸模型,在原始MNIST數(shù)據(jù)集上,區(qū)分3和7的錯誤率為1.6%,如圖?所示;當(dāng)應(yīng)用快速梯度符號法添加對抗擾動之后,邏輯回歸模型在這些對抗樣本上的錯誤率為99%。
這有點(diǎn)類似于L1正則化。但是L1是在訓(xùn)練過程中減少模型的激活,而不加在損失上,這意味著如果模型學(xué)習(xí)到有足夠可信度進(jìn)行預(yù)測,使損失函數(shù)飽和,那么這種懲罰最終會開始消失。但是在不擬合的情況下這并不能保證會發(fā)生,同時對抗訓(xùn)練只會使不擬合的情況惡化,因此,我們可以把L1重量的衰減看作比對抗性訓(xùn)練更“最糟糕的情況”,因?yàn)樵诒WC良好的情況下它不能失效。
如果我們從邏輯回歸轉(zhuǎn)到多類softmax回歸,L1權(quán)重衰減將變得更加悲觀,因?yàn)樗鼘oftmax的每個輸出視為獨(dú)立的擾動,而實(shí)際上通常不可能找到與所有類的權(quán)重向量一致的單一假設(shè)。在有多個隱藏單位的深層網(wǎng)絡(luò)中,權(quán)重衰減會高估擾動所能造成的傷害。因?yàn)橹亓克p會高估的對抗傷害程度,有必要使用比與我們的特征的精確性有關(guān)干擾系數(shù)更小的L1權(quán)重衰減系數(shù)。在MNIST上訓(xùn)練maxout網(wǎng)絡(luò)時,我們用.25的干擾系數(shù)取得了較好的效果。在第一層應(yīng)用L1權(quán)值衰減時,我們發(fā)現(xiàn)即使系數(shù)為.0025也過大,導(dǎo)致模型在訓(xùn)練集上的誤差超過5%。較小的權(quán)值衰減系數(shù)允許成功訓(xùn)練,但沒有達(dá)到正則化的好處。
6 ADVERSARIAL TRAINING OF DEEP NETWORKS
作者首先認(rèn)為對深層網(wǎng)絡(luò)容易受到對抗樣本的攻擊的批評在某種程度上是被誤導(dǎo)的,因?yàn)榕c淺線性模型不同,深層網(wǎng)絡(luò)至少能夠表示抵抗敵對性干擾的函數(shù)。然后又提及了這個通用逼近定理(universal approximator theorem)保證了具有至少一個隱含層的神經(jīng)網(wǎng)絡(luò)(只要它的隱含層允許有足夠的神經(jīng)元單位)可以以任意精度表示任何函數(shù)。通用逼近器定理并沒有說明訓(xùn)練算法是否能夠發(fā)現(xiàn)具有所有期望性質(zhì)的函數(shù)。顯然,標(biāo)準(zhǔn)的監(jiān)督訓(xùn)練并沒有規(guī)定所選的函數(shù)能夠抵抗對抗樣本,這必須以某種方式被編碼到訓(xùn)練過程中。
通過混合訓(xùn)練對抗的和干凈的樣本,神經(jīng)網(wǎng)絡(luò)可以正則化。對抗性實(shí)例的訓(xùn)練與其他數(shù)據(jù)增強(qiáng)方案有所不同;通常,使用轉(zhuǎn)換(例如預(yù)期在測試集中實(shí)際發(fā)生的轉(zhuǎn)換)來增加數(shù)據(jù)。這種形式的數(shù)據(jù)擴(kuò)充使用不太可能自然發(fā)生的輸入,但暴露了模型概念化其決策功能的方式上的缺陷。在那個時候,這個過程從來沒有被證明在一個最先進(jìn)的基準(zhǔn)測試中可以提高超過dropout。然而,這在一定程度上是因?yàn)楹茈y用昂貴的基于L-BFGS的對抗實(shí)例進(jìn)行廣泛的實(shí)驗(yàn)。
發(fā)現(xiàn)基于快速梯度符號方法的對抗性目標(biāo)函數(shù)訓(xùn)練是一種有效的正則化器:
用這種方法訓(xùn)練一個正則化的帶dropout的maxout網(wǎng)絡(luò),可以將不進(jìn)行對抗性訓(xùn)練的錯誤率從0.94%降低到進(jìn)行對抗性訓(xùn)練的錯誤率為0.84%。這個提升的過于少,作者注意到在訓(xùn)練集的對抗子樣本錯誤率沒有達(dá)到零,作出了兩點(diǎn)改進(jìn):
- 將神經(jīng)元數(shù)目從240個變成了1600個。
- 同時使用early stopping在對抗樣本到測試集上。
作者在這個兩個改進(jìn)的標(biāo)準(zhǔn)下來選擇訓(xùn)練的迭代數(shù),然后對所有60000個樣本進(jìn)行再訓(xùn)練。五個不同的訓(xùn)練使用不同的隨機(jī)數(shù)生成器的種子用于選擇minibatches訓(xùn)練樣本,初始化權(quán)重模型,并生成dropout masks導(dǎo)致四個試驗(yàn)都有0.77%的錯誤率和一個試驗(yàn)0.83%的錯誤率。0.782%的平均值是MNIST排列不變版本報告的最佳結(jié)果,盡管在統(tǒng)計上與使用dropout微調(diào)DBMs 獲得的0.79%的結(jié)果沒有區(qū)別。
之后作者做了一個實(shí)驗(yàn),沒太看懂什么意思。。。。
用原來的模型生成的對抗樣本作用在原來的模型上,錯誤率是89.4%,但是作用在使用對抗樣本訓(xùn)練的模型上,錯誤率是17.9%。用對抗樣本訓(xùn)練的模型去生成對抗樣本,作用在原來的模型上,錯誤率是40.9%,作用在用對抗樣本訓(xùn)練的模型上,錯誤率是19.6。
但是對抗訓(xùn)練的模型對對抗樣本錯誤的分類時,它的預(yù)測仍然是高度自信的。我們還發(fā)現(xiàn),學(xué)習(xí)模型的權(quán)值發(fā)生了顯著的變化,而對抗訓(xùn)練模型的權(quán)值顯著地更具局部性和可解釋性。
這個就是直觀的用對抗樣本訓(xùn)練的圖,還是比較明顯能看出來,用對抗樣本訓(xùn)練的更干凈了。
事實(shí)上,在許多情況下,噪聲實(shí)際上會導(dǎo)致一個較低的目標(biāo)函數(shù)值。我們可以把對抗性訓(xùn)練看作是在一組有噪聲的輸入中進(jìn)行艱難的例子挖掘,以便通過只考慮那些強(qiáng)烈抵制分類的有噪聲的點(diǎn)來更有效地訓(xùn)練。
由于sign function導(dǎo)數(shù)處處為零或無定義,基于快速梯度符號法對敵對目標(biāo)函數(shù)的梯度下降不允許模型預(yù)測對手對參數(shù)變化的反應(yīng)。
作者又考慮了是擾動輸入或隱藏層,或者兩者都擾動更好,作者發(fā)現(xiàn):
在飽和模型(如Rust模型)上,對輸入的擾動與對隱藏層的擾動執(zhí)行得相當(dāng)?;谛D(zhuǎn)隱藏層的擾動解決了無界激活增長的問題,使相加的擾動相對較小。作者能夠成功地用隱含層的旋轉(zhuǎn)擾動訓(xùn)練最大輸出網(wǎng)絡(luò)。然而,這并沒有產(chǎn)生幾乎強(qiáng)大的正則化效果的添加擾動的輸入層。我們對對抗性訓(xùn)練的看法是,只有當(dāng)模型有能力學(xué)會抵制對抗性的例子時,它才顯然是有用的,當(dāng)然只有通用逼近定理適用時,才會出現(xiàn)這種情況。由于神經(jīng)網(wǎng)絡(luò)的最后一層,即linear-sigmoid或linear-softmax層,并不是最終隱含層函數(shù)的通用逼近器,這表明當(dāng)對最終隱藏層應(yīng)用對抗性擾動時,很可能會遇到不匹配的問題。使用隱含層的擾動訓(xùn)練的最佳結(jié)果從未涉及到最后隱含層的擾動。
7 DIFFERENT KINDS OF MODEL CAPACITY
對抗樣本是違反直覺的可能是因?yàn)槲覀冊诟呔S空間的直覺非常差(畢竟我們在三維空間),但是作者舉出來一個RBF神經(jīng)網(wǎng)絡(luò)的例子,RBF對于對抗樣本的攻擊很不敏感,他本身預(yù)測的置信度就非常低,所以作者認(rèn)為它會對自己不理解的點(diǎn)減少置信度來提高準(zhǔn)確率。
RBP網(wǎng)絡(luò):
對于一個沒有隱含層的淺層RBF神經(jīng)網(wǎng)絡(luò),使用快速梯度符號法構(gòu)造對抗樣例,設(shè)置干擾系數(shù)=.25 ,在MNIST數(shù)據(jù)集上,其錯誤率為55.4%,但是對于分錯的樣本,其置信度非常低,只有1.2%。也就是說,RBF神經(jīng)網(wǎng)絡(luò)對對抗擾動不敏感,因?yàn)楫?dāng)它們被“愚弄”時,其對應(yīng)的置信度也很低。
8 WHY DO ADVERSARIAL EXAMPLES GENERALIZE?
對抗性示例的一個有趣的方面是,為一個模型生成的示例經(jīng)常被其他模型分類錯誤,即使它們有不同的架構(gòu)或者是在不相交的訓(xùn)練集上訓(xùn)練的時候也是如此。此外,當(dāng)這些不同的模型對一個敵對的例子進(jìn)行錯誤的分類時,它們通常會在其類別上達(dá)成一致。基于極端非線性和過擬合的解釋不能很好地解釋這種行為——為什么多個具有過過容量的極端非線性模型始終如一地用相同的方式標(biāo)記分布外的點(diǎn)?
在線性的觀點(diǎn)下,對抗樣本出現(xiàn)在廣闊的子空間中。方向只需要有正的點(diǎn)積與成本函數(shù)的梯度,并且干擾系數(shù)只要足夠大就行了。圖4展示了這種現(xiàn)象。
通過追蹤干擾系數(shù)的不同值,可以看到,對幾乎任何足夠大的干擾系數(shù)值,只要朝著正確的方向前進(jìn)都可靠地出現(xiàn)對抗樣本。大多數(shù)Rn都是由對抗樣本和無用的類樣本組成(參見附錄)。這個圖片是一個原始的的訓(xùn)練maxout網(wǎng)絡(luò)生成的。
9 ALTERNATIVE HYPOTHESES
這一部分,作者通過實(shí)驗(yàn)及分析,反駁了其他兩種對抗樣本存在的備選假設(shè)。
- 假設(shè)1:生成訓(xùn)練可以在訓(xùn)練過程中提供更多的限制,或者是的模型學(xué)習(xí)如何分辨"real"或者"fake"的數(shù)據(jù),并且對"real"的數(shù)據(jù)更加自信。
文章表明,某些生成訓(xùn)練并不能達(dá)到假設(shè)的效果,但是不否認(rèn)可能有其他形式的生成模型可以抵御攻擊,但是確定的是生成訓(xùn)練的本身并不足夠。
- 假設(shè)2:對抗樣本存在于單個奇怪的模型(models with strange quirks),因此多個模型的平均可以使得模型防御性更好。
文章通過實(shí)驗(yàn)說明,模型融合(ensembles)對于對抗樣本的防御能力非常有限。
10 SUMMARY AND DISCUSSION
- 對抗樣本可以被解釋成高維點(diǎn)乘的一種性質(zhì),他們是模型過于線性的結(jié)果。
- 對抗樣本具有對不同模型都有效的特性,這個特性是可解釋的。
- 擾動的方向十分重要。
- 沒明白意思。
- 我們介紹了一族快速生成對抗樣本的方法。
- 通過對抗樣本訓(xùn)練可以正則化,甚至比dorpout的好。
- 我們進(jìn)行了實(shí)驗(yàn)不能用其他方法更簡單的更少的高效正則化(包括L1)達(dá)到這個效果。
- 模型容易被優(yōu)化就容易被擾動。
- 線性模型抵抗對抗樣本能力差,只有大量隱藏層的網(wǎng)絡(luò)才應(yīng)該被訓(xùn)練成抵抗對抗樣本的網(wǎng)絡(luò)。
- RBF神經(jīng)網(wǎng)絡(luò)對對抗樣本有抵抗力。
- 輸入加噪音并不難抵抗對抗樣本。
- Ensembles不能抵抗對抗樣本。
基于梯度的優(yōu)化是現(xiàn)代人工智能的核心。使用一個設(shè)計得足夠線性的網(wǎng)絡(luò)——無論是ReLU網(wǎng)絡(luò)還是maxout網(wǎng)絡(luò)、LSTM網(wǎng)絡(luò),還是精心配置的不過度飽和的s型網(wǎng)絡(luò)——我們能夠適應(yīng)我們關(guān)心的大多數(shù)問題,相反例子的存在表明,能夠解釋訓(xùn)練數(shù)據(jù),甚至能夠正確標(biāo)注測試數(shù)據(jù),并不意味著我們的模型真正理解了我們要求它們執(zhí)行的任務(wù)。相反,他們的線性反應(yīng)在數(shù)據(jù)分布中沒有出現(xiàn)的點(diǎn)上過于自信,而這些自信的預(yù)測通常是高度不正確的。這項工作表明,我們可以通過明確地識別問題點(diǎn)并在每個問題點(diǎn)上修正模型來部分地修正這個問題。然而,我們也可以得出這樣的結(jié)論:我們所使用的模范家庭在本質(zhì)上是有缺陷的。優(yōu)化的易用性是以模型容易被誤導(dǎo)為代價的。這激發(fā)了優(yōu)化程序的開發(fā),這些程序能夠訓(xùn)練那些行為在局部更穩(wěn)定的模型。
總結(jié):
優(yōu)點(diǎn):這篇論文中,Goodfellow否定了Szegedy關(guān)于為什么神經(jīng)網(wǎng)絡(luò)易受到對抗樣例攻擊的解釋,他認(rèn)為神經(jīng)網(wǎng)絡(luò)在高維空間中線性性質(zhì)才是導(dǎo)致對抗樣例存在的真正原因?;谶@種解釋,Goodfellow提出了一種快速生成對抗樣例的方法,即快速梯度符號法(FGSM),這種方法的核心思想是沿著梯度的反方向添加擾動從而拉大對抗樣例于原始樣本的距離,因?yàn)镚oodfellow認(rèn)為在構(gòu)造對抗樣例時,我們更應(yīng)該關(guān)心的是擾動的方向而不是擾動的數(shù)目。Goodfellow認(rèn)為對抗樣例之所以有泛化性的原因是因?yàn)樘砑拥臄_動與模型的權(quán)重向量高度一致,而且不同的模型在被訓(xùn)練執(zhí)行相同的任務(wù)時,從訓(xùn)練數(shù)據(jù)中學(xué)到的東西相似。在這篇文章中,Goodfellow提出了對抗訓(xùn)練的思想,他認(rèn)為對抗訓(xùn)練會導(dǎo)致訓(xùn)練過程中的正則化,而且其效果甚至超過了dropout 。
不足:這篇文章中提出的快速梯度符號法存在明顯的缺點(diǎn),首先,這是一種不定向的攻擊,只能讓模型出錯而無法做到定向攻擊。而且這種攻擊的魯棒性不強(qiáng),添加的擾動容易在圖片的預(yù)處理階段被過濾掉。盡管Googdfellow提出的對抗訓(xùn)練方式可以提高模型的泛化能力,從而在一定程度上防御對抗樣例攻擊,但這種防御方法只針對一步對抗樣例攻擊有效,攻擊者仍可以針對新的網(wǎng)絡(luò)構(gòu)造其他的對抗樣例。
總結(jié)
以上是生活随笔為你收集整理的论文笔记——EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES(解释和利用对抗样本)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 什么是TOR 官方文档
- 下一篇: 魔兽世界怀旧服——按键精灵 Java版(