FGSM论文阅读
英文不好,,翻譯一般,有些不太通順的地方
《解釋和利用不利的例子》
摘要
包括神經(jīng)網(wǎng)絡(luò)在內(nèi)的幾種機器學(xué)習(xí)模型始終對一些容易造成誤解的示例進行錯誤分類,這些干擾示例是通過對數(shù)據(jù)集中的示例進行一些微小但壞的擾動后形成的輸入,受擾動的輸入會導(dǎo)致模型以高置信度輸出錯誤答案,早期對這種現(xiàn)象的解釋集中于非線性和過度擬合。相反,我們認為神經(jīng)網(wǎng)絡(luò)容易受到對抗性擾動的主要原因是因為它們的線性特性,這種解釋得到一些新的定量結(jié)果的支持,同時對一些有關(guān)這方面內(nèi)容的有趣事實進行了首次解釋,對它們的體系結(jié)構(gòu)以及與訓(xùn)練集之間的關(guān)系進行了概括,而且這種觀點產(chǎn)生了一種簡單快速生成對抗性示例的方法,使用這種方法為對抗訓(xùn)練提供示例,我們減少了maxout網(wǎng)絡(luò)在MNIST數(shù)據(jù)集測試時的錯誤。
1.引言
S等取得了一個有趣的發(fā)現(xiàn):一些機器學(xué)習(xí)模型(包括最新的神經(jīng)網(wǎng)絡(luò))容易受到對抗性例子的攻擊,也就是說機器學(xué)習(xí)模型會對這些示例進行錯誤分類,而這些示例與從數(shù)據(jù)分布中得出的正確分類示例僅稍有不同。在許多情況下,在訓(xùn)練數(shù)據(jù)的不同子集或使用不同體系結(jié)構(gòu)訓(xùn)練得到的模型會將同一對抗示例進行錯誤分類。這表明對抗性示例暴露了我們訓(xùn)練算法中的基本盲點。?
這些對抗性例子的原因是一個迷,一些推測性的解釋說這是由于深度神經(jīng)網(wǎng)絡(luò)的極端非線性所致,也有可能是由于模型平均不足和純監(jiān)督學(xué)習(xí)問題的正則化不足所致。
我們證明這些推斷假設(shè)是不必要的,高維空間中線性行為也足以引起對抗性例子,這種觀點使我們能夠設(shè)計快速生成對抗性示例的方法,從而使對抗性訓(xùn)練切實可行。我們證明,對抗性訓(xùn)練可以提供比使用dropout正則化更多的好處。通用的正則化策略,例如(dropout,預(yù)訓(xùn)練和模型平均)并不能顯著降低模型對付對抗性示例的脆弱性,但是改用非線性模型族如(RBF網(wǎng)絡(luò))能夠?qū)崿F(xiàn)較好的效果。
我們的解釋表明,在設(shè)計模型時由于將其設(shè)計為線性而使其易于訓(xùn)練,與使用非線性效應(yīng)來抵抗對抗性圖片的擾動這之間存在一些矛盾,從長遠來看,可以通過成功訓(xùn)練更多非線性模型或是采用更多強大的優(yōu)化方法來避免這種折中。
2.近期的工作
S證明了神經(jīng)網(wǎng)絡(luò)和相關(guān)模型的多種有趣特性,其中與本文最相關(guān)的是:
- 盒約束L-BFGS可以可靠地找到對抗性示例。
- 在例如ImageNet的一些數(shù)據(jù)集上,對抗性示例與原始示例非常接近,以至于人眼無法區(qū)分這些差異。
- 同樣的對抗示例時常會被一系列在不同網(wǎng)絡(luò)結(jié)構(gòu)或者基于不同圖像樣本集訓(xùn)練得到的模型上被錯誤的分類。
- 通過對抗性例子的訓(xùn)練可以使模型規(guī)則化,但是由于需要在內(nèi)部循環(huán)中進行昂貴的約束優(yōu)化,因此這個實用性較差。
這些實驗結(jié)果表明,基于現(xiàn)代機器學(xué)習(xí)技術(shù)的分類器,即使是在測試集上獲得出色性能的分類器,也無法學(xué)到?jīng)Q定正確輸出的基本標(biāo)準(zhǔn)概念。取而代之的是這些算法建立了Potemkin village,它們可以很好的應(yīng)用于自然發(fā)生的數(shù)據(jù),但是當(dāng)人們訪問空間中數(shù)據(jù)分布可能性較低的點時,它們就會被認為是偽造品。我們通常將這些結(jié)果解釋為深度網(wǎng)絡(luò)中特別的缺陷,盡管線性分類器具有相同的問題,我們認為對這一缺陷的了解是修復(fù)它的機會。實際上,Gu等人2014年已經(jīng)開始著手設(shè)計抵抗對抗性擾動的模型,盡管還沒有模型能成功做到這一點,在保持最純凈輸入準(zhǔn)確性的同時又做到抵抗對抗性擾動的模型。
3.對抗性例子的線性解釋
我們首先說明線性模型的對抗性示例存在。在許多問題中,單個輸入的功能受到限制,例如數(shù)字圖像通常每個像素僅使用8位,因此他們會丟棄低于動態(tài)范圍1/255的所有信息,由于特征的精度是有限的,所以如果擾動η的每個元素都小于特征的精度,則分類器對輸入x的響應(yīng)不同于對抗性輸入x?= x +η的響應(yīng)是不合理的。形式上,對于類別分類良好的問題,只要足夠小,我們期望分類器為x和x~分配相同的類別,其中足夠小,可以被與我們的問題相關(guān)的傳感器或數(shù)據(jù)存儲設(shè)備丟棄。考慮權(quán)重向量w和對抗性示例x?之間的點積:
對抗性擾動使激活度增加。我們可以通過賦予η= sign(w)來最大程度地限制η的最大范數(shù)。如果w具有n個維,并且權(quán)重向量的元素的平均大小為m,則激活將增長,因為不會隨問題的維數(shù)增長,但是由引起的激活變化可以隨n線性增長,因此對于高維問題,我們可以對輸入進行許多無窮小的更改,從而使輸出實現(xiàn)一個總的大的更改。我們可以將其視為一種“accidental steganography”,即使其中存在多個信號且其他信號具有更大的幅度,線性模型被迫專門處理與其權(quán)重最接近的信號。這個說明表明簡單線性模型會具有對抗性實例如果它的輸入具有足夠的維度。先前針對對抗性示例的解釋調(diào)用了神經(jīng)網(wǎng)絡(luò)的假設(shè)屬性,而我們基于線性的假設(shè)更簡單,也可以解釋為什么softmax回歸容易受到對抗示例的影響。
4.非線性模型的線性擾動
對抗性示例的線性觀點提出一種生成它們的快速方法,我們假設(shè)神經(jīng)網(wǎng)絡(luò)太過線性而無法抵抗太過線性的對抗性擾動,LSTM,Relu,maxout都故意設(shè)計為非常線性的方式進行設(shè)計,因此它們更容易優(yōu)化。諸如softmax的一些非線性網(wǎng)絡(luò)出于相同的原因花費大量的時間在非飽和更線性方面進行調(diào)整。這種線性行為表明,線性模型的廉價分析性擾動也會破壞神經(jīng)網(wǎng)絡(luò)。
圖1:在ImageNet上訓(xùn)練的GoogleNet快速對抗示例生成演示。通過添加一個不明顯的小向量,這個元素等于成本函數(shù)相對于輸入符號的梯度元素,我們可以更改GoogleNet的圖片分類,在這里我們的.007對應(yīng)于GoogleNet轉(zhuǎn)換為實數(shù)后8位圖像編碼的最小位大小。
設(shè)θ為模型參數(shù),x為模型輸入,y與x相關(guān)聯(lián)的目標(biāo)(對于具有目標(biāo)的機器學(xué)習(xí)任務(wù)),而J(θ,x,y)為訓(xùn)練神經(jīng)網(wǎng)絡(luò)的成本。我們可以圍繞θ的當(dāng)前值線性化成本函數(shù),從而獲得最優(yōu)的最大范數(shù)約束的
我們稱其為生成對抗性示例的快速梯度符號方法,請注意使用反向傳播可以有效地計算所需梯度。我們發(fā)現(xiàn)該方法可靠地導(dǎo)致了各種模型將其輸入錯誤分類。 有關(guān)ImageNet的演示,請參見圖1。 我們發(fā)現(xiàn)使用= .25會導(dǎo)致MNIST(?)測試集1上的淺層softmax分類器的錯誤率為99.9%,平均置信度為79.3%。 在相同設(shè)置下,maxout網(wǎng)絡(luò)將89.4%的對抗性示例錯誤分類,平均置信度為97.6%。??類似地,使用= 0.1時,在預(yù)處理版本的CIFAR-10上使用卷積maxout網(wǎng)絡(luò)時,我們得到87.15%的錯誤率和分配給錯誤標(biāo)簽的平均概率96.6%測試集2。
生成對抗性示例的其他簡單方法也是可能的。例如,我們還發(fā)現(xiàn),將x沿梯度方向旋轉(zhuǎn)小角度確實會產(chǎn)生對抗性示例。這些簡單,廉價的算法能夠生成錯誤分類的示例,這一事實證明了我們對線性網(wǎng)絡(luò)的對抗性示例的解釋。 該算法還可以作為快速對抗訓(xùn)練的方法,甚至只是對訓(xùn)練好的的網(wǎng)絡(luò)進行分析的一種方法。
5.線性模型的對抗訓(xùn)練與權(quán)重衰減
也許我們可以考慮的最簡單的模型是邏輯回歸。 在這種情況下,快速梯度符號法是精確的。 我們可以對這種簡單設(shè)置情況下對抗示例是如何產(chǎn)生的得到一些了解。 有關(guān)指導(dǎo)性圖像,請參見圖2。如果我們訓(xùn)練一個模型來識別帶有標(biāo)簽? ? ?的??,其中是sigmoid函數(shù)
其中,是softplus函數(shù),根據(jù)梯度符號擾動,我們可以對x的最壞情況的對抗擾動示例訓(xùn)練,而不是x本身進行訓(xùn)練得出一個簡單的分析形式。注意,梯度的符號只是而且,因此,logistic回歸的對抗版本應(yīng)最小化
圖2:快速梯度符號法適用于邏輯回歸。(a)在Mnist上訓(xùn)練的邏輯回歸模型的權(quán)重。(b)在Mnist上訓(xùn)練的邏輯回歸模型的權(quán)重符號。這是最佳的擾動
這有點類似于L1正則化,但是有一些重要的區(qū)別,最重要的是在訓(xùn)練期間從模型激活中減去L1損失,而不是增加到訓(xùn)練成本當(dāng)中,這意味著模型做出足夠飽和的預(yù)測,懲罰最終可能開始消失。在欠擬合的情況下,不能保證會發(fā)生這種情況,加入對抗訓(xùn)練只會使訓(xùn)練不到位的情況更加惡化,我們將L1權(quán)重下降視為比加入了對抗訓(xùn)練更糟的情況,因為網(wǎng)絡(luò)沒能訓(xùn)練到擬合足夠好的情況就停下了。
如果我們從邏輯回歸轉(zhuǎn)向多類softmax回歸,則L1權(quán)重衰減變得更加悲觀,因為它會將softmax的每個輸出視為獨立可擾動的,而實際上通常不可能找到與該類的所有權(quán)重向量對齊的η。在具有多個隱藏單元的深層網(wǎng)絡(luò)中,重量衰減高估了攝動可能帶來的損害。在具有多個隱藏單元的深層網(wǎng)絡(luò)中,重量衰減高估了擾動可能帶來的損害,由于L1權(quán)重衰減會高估對手可能造成的損失,因此與我們的特征精度相關(guān)聯(lián)的L1權(quán)重衰減系數(shù)必須小于。在MNIST上訓(xùn)練maxout網(wǎng)絡(luò)時,我們使用= 0.25的對抗訓(xùn)練獲得了良好的結(jié)果。 當(dāng)將L1權(quán)重衰減應(yīng)用于第一層時,我們發(fā)現(xiàn)甚至.0025的系數(shù)也太大,并且導(dǎo)致模型在訓(xùn)練集上陷入超過5%的誤差。 較小的重量衰減系數(shù)允許成功訓(xùn)練,但沒有帶來正則化好處。
6.深層網(wǎng)絡(luò)的對抗性訓(xùn)練
對深度網(wǎng)絡(luò)的評價很容易受到對抗性例子的誤導(dǎo),因為與淺層線性模型不同,深度網(wǎng)絡(luò)至少能夠表示抵抗對抗性擾動的功能。通用逼近定理(Hornik等,1989)保證了只要允許其隱藏層具有足夠的單位,具有至少一個隱藏層的神經(jīng)網(wǎng)絡(luò)就可以以任意精度表示任何功能。 淺線性模型不能在訓(xùn)練點附近變得恒定,同時還向不同的訓(xùn)練點分配不同的輸出。當(dāng)然,通用逼近定理并沒有說明訓(xùn)練算法是否能夠發(fā)現(xiàn)具有所有所需屬性的函數(shù)。 顯然,標(biāo)準(zhǔn)的監(jiān)督訓(xùn)練并沒有指定所選功能可以抵抗對抗性示例,這必須以某種方式編碼在訓(xùn)練過程中。Szegedy等。 (2014b)表明,通過訓(xùn)練對抗性示例和干凈示例的混合物,可以使神經(jīng)網(wǎng)絡(luò)有些正規(guī)化。 有關(guān)對抗性示例的培訓(xùn)與其他數(shù)據(jù)增強方案有所不同; 通常,人們會使用轉(zhuǎn)換(例如預(yù)期在測試集中實際發(fā)生的轉(zhuǎn)換)來擴充數(shù)據(jù)。 相反,這種形式的數(shù)據(jù)增強使用了不太可能自然發(fā)生的輸入,但以模型概念化其決策功能的方式暴露了缺陷。 當(dāng)時,從未證明此程序可以改進以達到最新基準(zhǔn)水平。 但是,這部分是因為很難對基于L-BFGS的昂貴的對抗性示例進行廣泛的實驗。 我們發(fā)現(xiàn)基于快速梯度符號法的對抗目標(biāo)函數(shù)訓(xùn)練
是有效的調(diào)節(jié)器:
在我們所有的實驗中,我們使用α= 0.5。 其他值可能會更好。 我們對這個超參數(shù)的最初猜測足夠好,以至于我們不需要探索更多內(nèi)容。 這種方法意味著我們會不斷更新我們提供的對抗性示例,以使它們抵制當(dāng)前模型版本。 使用這種方法來訓(xùn)練也通過dropout進行正規(guī)化的maxout網(wǎng)絡(luò),我們能夠?qū)㈠e誤率從沒有對抗訓(xùn)練的0.94%降低到具有對抗訓(xùn)練的0.84%。
我們觀察到在訓(xùn)練集上的對抗示例中我們沒有達到零錯誤率。我們通過進行兩次更改來解決此問題。首先,我們使模型更大,每層使用1600個單位,而不是原來的maxout網(wǎng)絡(luò)使用240個單位解決此問題。如果沒有對抗訓(xùn)練,這會使模型略微過擬合,并且在測試集上的錯誤率將達到1.14%。通過對抗訓(xùn)練,我們發(fā)現(xiàn)驗證集的誤差會隨著時間的流逝而趨于平穩(wěn),并且進展非常緩慢。最初的maxout結(jié)果使用了早期停止,并在100個紀(jì)元內(nèi)未降低驗證設(shè)置的錯誤率后終止學(xué)習(xí)。我們發(fā)現(xiàn),盡管驗證集錯誤非常平坦,但對抗驗證集錯誤卻并非如此。因此,我們在對抗性驗證集錯誤上使用了提前停止。使用此標(biāo)準(zhǔn)來選擇要訓(xùn)練的時期數(shù),然后我們對所有60,000個示例進行了再訓(xùn)練。使用不同的種子進行五次不同的訓(xùn)練對于用于選擇訓(xùn)練樣本的最小批處理,初始化模型權(quán)重并生成丟失掩碼的隨機數(shù)生成器,將導(dǎo)致四項試驗的每個錯誤在測試集上的錯誤率為0.77%,而另一項試驗的錯誤率為0.83%。平均值0.782%是在MNIST的排列不變版本上報告的最佳結(jié)果,盡管與通過微調(diào)帶遺漏的DBM所獲得的結(jié)果(Srivastava等人,2014)在統(tǒng)計上沒有區(qū)別(Srivastava等,2014)。
該模型還變得有點對抗性的例子。回想一下,在沒有對抗訓(xùn)練的情況下,基于快速梯度符號法的同類示例中,這種模型的錯誤率為89.4%。經(jīng)過對抗訓(xùn)練,錯誤率降至17.9%。對抗性示例可在兩個模型之間轉(zhuǎn)移,但對抗性訓(xùn)練的模型顯示出更高的魯棒性。通過原始模型生成的對抗示例在對抗訓(xùn)練模型上的錯誤率為19.6%,而通過新模型生成的對抗示例在原始模型上的錯誤率為40.9%。當(dāng)經(jīng)過對抗訓(xùn)練的模型確實對一個對抗示例進行了錯誤分類時,不幸的是,其預(yù)測仍然非常有信心。錯誤分類示例的平均置信度為81.4%。我們還發(fā)現(xiàn),學(xué)習(xí)模型的權(quán)重發(fā)生了顯著變化,而經(jīng)過對抗訓(xùn)練的模型的權(quán)重明顯更具局限性和可解釋性(見圖3)。當(dāng)數(shù)據(jù)受到對手的干擾時,對抗訓(xùn)練過程可以看作是使最壞情況的錯誤最小化。 這可以解釋為學(xué)會玩對抗游戲,也可以解釋為將帶有的噪聲添加到輸入中的帶噪樣本的預(yù)期成本的上限最小化。 對抗訓(xùn)練也可以看作是主動學(xué)習(xí)的一種形式,其中模型能夠請求新點的標(biāo)簽。 在這種情況下,人類標(biāo)簽器將替換為從附近點復(fù)制標(biāo)簽的啟發(fā)式標(biāo)簽器。
我們還可以通過對max范數(shù)框內(nèi)的所有點進行訓(xùn)練,或?qū)υ摽騼?nèi)的許多點進行采樣,來對模型進行正則化,使其對小于A精度的特征變化不敏感。 這相當(dāng)于在訓(xùn)練期間以最大范數(shù)添加噪聲。 但是,均值為零且協(xié)方差為零的噪聲在防止對抗性示例方面非常低效。 任何參考矢量和此類噪聲矢量之間的預(yù)期點積為零。 這意味著在許多情況下,噪聲基本上不會產(chǎn)生任何影響,而只會產(chǎn)生更困難的輸入。
圖3:在MNIST上訓(xùn)練的maxout網(wǎng)絡(luò)的權(quán)重可視化。 每行顯示單個maxout單位的過濾器。 左)天真的訓(xùn)練模型。 右)經(jīng)過對抗訓(xùn)練的模型。
實際上,在許多情況下,噪聲實際上會導(dǎo)致較低的目標(biāo)函數(shù)值。 我們可以將對抗訓(xùn)練視為在一組嘈雜的輸入中進行艱苦的示例挖掘,以便僅考慮那些強烈抵抗分類的嘈雜點來更有效地進行訓(xùn)練。 作為控制實驗,我們訓(xùn)練了基于隨機添加的噪聲對maxout網(wǎng)絡(luò)進行訓(xùn)練每個像素±,或者向每個像素添加中的噪聲。 在快速梯度符號對抗性示例中,它們分別獲得86.2%的錯誤率和97.3%的置信度,以及90.4%的置信度為97.8%的置信度。
由于符號函數(shù)的導(dǎo)數(shù)在任何地方都為零或未定義,因此基于快速梯度符號方法的對抗目標(biāo)函數(shù)的梯度下降無法使模型預(yù)測對手對參數(shù)變化的反應(yīng)。 如果我們?nèi)《氖腔谛⌒D(zhuǎn)或按比例縮放的梯度的對抗性示例,則擾動過程本身是可區(qū)分的,學(xué)習(xí)可以將對手的反應(yīng)考慮在內(nèi)。 但是,我們發(fā)現(xiàn)此過程的正則化結(jié)果幾乎沒有強大的功能,也許是因為這些
各種對抗性例子并不難解決。
一個自然的問題是,擾動輸入層或隱藏層或同時擾動兩者是否更好。這里的結(jié)果不一致。 Szegedy等。 (2014b)報道,對抗性擾動在應(yīng)用于隱藏層時產(chǎn)生最佳正則化。該結(jié)果是在S型網(wǎng)絡(luò)上獲得的。在我們使用快速梯度符號方法的實驗中,我們發(fā)現(xiàn)具有隱藏單元的激活不受限制的網(wǎng)絡(luò)只是通過使其隱藏單元的激活非常大來做出響應(yīng),因此通常最好只干擾原始輸入。 Rust模型我們發(fā)現(xiàn)輸入的擾動與隱藏層的擾動相當(dāng)。基于旋轉(zhuǎn)隱藏層的擾動解決了無限激活增加的問題,從而使相加擾動相對較小。我們能夠成功地利用隱藏層的旋轉(zhuǎn)擾動來訓(xùn)練maxout網(wǎng)絡(luò)。但是,這沒有產(chǎn)生與輸入層的附加擾動幾乎一樣強的正則化效果。我們對對抗性訓(xùn)練的看法是,只有在模型具有學(xué)習(xí)抵抗對抗性例子的能力時,它才明顯有用。僅當(dāng)應(yīng)用通用逼近定理時,情況才很明顯。由于神經(jīng)網(wǎng)絡(luò)的最后一層,即線性乙狀結(jié)腸或線性softmax層,并不是最終隱藏層功能的通用逼近器,因此這表明在將對抗性擾動應(yīng)用于最終層時,很可能會遇到擬合不足的問題隱藏層。我們確實發(fā)現(xiàn)了這種效果。使用隱藏層擾動進行訓(xùn)練的最佳結(jié)果從未涉及最終隱藏層的擾動。
7.不同模型的容量
對抗性示例的存在似乎違反直覺的原因之一是,我們大多數(shù)人對高維空間的直覺都很差。 我們生活在三個維度中,因此我們不習(xí)慣數(shù)百個維度中的小效果加起來創(chuàng)建大效果。 我們的直覺還為我們服務(wù)不好,這是另一種方式。 許多人認為容量低的模型無法做出許多不同的自信預(yù)測。 這是不正確的。 一些低容量的模型確實表現(xiàn)出這種現(xiàn)象。 例如,淺RBF網(wǎng)絡(luò)具有
只能自信地預(yù)測到正值類別在μ附近。 在其他地方,它們默認不預(yù)測班級,或者缺乏低信度的預(yù)測,RBF網(wǎng)絡(luò)天生就不受對抗示例的影響,從某種意義上說,它們被欺騙時信心不足。使用快速梯度符號法生成的對抗性示例(A = .25),沒有隱藏層的淺RBF網(wǎng)絡(luò)在MNIST上的錯誤率達到55.4%。但是,它對錯誤示例的信心僅為1.2%。它對干凈測試示例的平均置信度為60.6%。我們不能期望具有如此低容量的模型能夠在所有空間點上都能獲得正確的答案,但是它可以通過大幅降低其對“無法理解”的點的置信度來做出正確的響應(yīng)。不幸的是,RBF單位不會對任何重大轉(zhuǎn)換保持不變,因此它們不能很好地概括。我們可以將線性單位和RBF單位視為精確調(diào)用折衷曲線上的不同點。線性單元通過在特定方向上響應(yīng)每個輸入來實現(xiàn)較高的查全率,但由于在不熟悉的情況下響應(yīng)過強而導(dǎo)致精度較低。 RBF單元僅通過響應(yīng)特定的空間點即可達到高精度,但這樣做會犧牲召回率。受這一想法的啟發(fā),我們決定探索各種涉及二次單元的模型,包括深RBF網(wǎng)絡(luò)。我們發(fā)現(xiàn)這是一項艱巨的任務(wù)-當(dāng)使用SGD訓(xùn)練時,具有足夠二次抑制能力來抵抗對抗性擾動的每個模型都將獲得很高的訓(xùn)練集誤差。
8.為什么對抗性示例會通用化
對抗性示例的一個有趣的方面是,即使一個模型生成的示例具有不同的體系結(jié)構(gòu)或在不相交的訓(xùn)練集上進行了訓(xùn)練,但針對一個模型生成的示例經(jīng)常會被其他模型誤分類。 此外,當(dāng)這些不同的模型對一個對抗性示例進行錯誤分類時,它們通常在類別上彼此一致。 基于極端非線性和過度擬合的解釋不能輕易地解釋這種現(xiàn)象-為什么要建立多個極端非線性模型
容量過大是否始終以相同的方式標(biāo)記出分布點? 從以下假設(shè)來看,這種行為尤其令人驚訝:對抗性示例像現(xiàn)實中的有理數(shù)一樣精細地平鋪空間,因為在這種觀點中,對抗性示例很常見,但僅在非常精確的位置發(fā)生。
在線性視圖下,對抗性示例出現(xiàn)在較寬的子空間中。 方向η只需具有帶成本函數(shù)梯度的正點積,而Aneed僅足夠大即可。 圖4展示了這種現(xiàn)象。 通過找出不同的A值,我們可以看到對抗性示例出現(xiàn)在由快速梯度符號方法定義的1-D子空間的連續(xù)區(qū)域中,而不是在細小口袋中。 這就解釋了為什么對抗性例子很多,為什么一個分類器分類錯誤的示例具有較高的先驗概率被另一個分類器分類錯誤。
為了解釋為什么多個分類器將相同類別分配給對抗性示例,我們假設(shè)使用當(dāng)前方法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)都類似于在同一訓(xùn)練集上學(xué)習(xí)的線性分類器。 當(dāng)在訓(xùn)練集的不同子集上訓(xùn)練時,該參考分類器能夠?qū)W習(xí)大約相同的分類權(quán)重,這僅僅是因為機器學(xué)習(xí)算法能夠概括。 基礎(chǔ)分類權(quán)重的穩(wěn)定性反過來又導(dǎo)致對抗示例的穩(wěn)定性。為了檢驗該假設(shè),我們在深maxout網(wǎng)絡(luò)上生成了對抗性示例,并使用淺softmax網(wǎng)絡(luò)和淺RBF網(wǎng)絡(luò)對這些示例進行了分類。在被maxout網(wǎng)絡(luò)錯誤分類的示例中,RBF網(wǎng)絡(luò)預(yù)測maxout網(wǎng)絡(luò)的類別分配僅占16.0%的時間,而softmax分類器正確預(yù)測maxout網(wǎng)絡(luò)的類別占54.6%的時間。這些數(shù)字很大程度上是由不同模型的不同錯誤率驅(qū)動的。如果我們將注意力排除在兩個模型都出錯的情況下,則softmax回歸預(yù)測maxout的類別的時間為84.6%,而RBF網(wǎng)絡(luò)只能預(yù)測maxout的類別的時間為54.3%。相比之下,RBF網(wǎng)絡(luò)可以預(yù)測53.6%的時間的softmax回歸,因此它的行為本身具有很強的線性成分。我們的假設(shè)無法解釋maxout網(wǎng)絡(luò)的所有錯誤或跨模型泛化的所有錯誤,但顯然其中很大一部分與線性行為一致,線性行為是跨模型泛化的主要原因。
9.替代假設(shè)
現(xiàn)在,我們考慮并反駁了對抗性示例存在的一些替代假設(shè)。首先,一個假設(shè)是,生成訓(xùn)練可以對訓(xùn)練過程提供更多約束,或者使模型學(xué)習(xí)從“假”數(shù)據(jù)中區(qū)分“真實”數(shù)據(jù)和僅對“真實”數(shù)據(jù)充滿信心。 MP-DBM(Goodfellow等人,2013a)提供了一個很好的模型來檢驗這一假設(shè)。它的推理過程在MNIST上具有良好的分類精度(錯誤率0.88%)。該推斷過程是可區(qū)分的。其他生成模型具有不可微分的推理程序,這使得計算對抗性示例變得更加困難,或者需要其他非生成性鑒別器模型才能在MNIST上獲得良好的分類精度。對于MP-DBM,我們可以確定生成模型本身是在對付對抗性示例,而不是最上面的非生成分類器模型。我們發(fā)現(xiàn)該模型容易受到對抗性例子的攻擊。當(dāng)anA為0.25時,我們發(fā)現(xiàn)從MNIST測試集生成的對抗性示例中的錯誤率為97.5%。生成訓(xùn)練的其他形式仍然有可能賦予抵抗力,但顯然,僅產(chǎn)生生成這一事實并不足夠。
圖4:通過找出不同的A值,我們可以看到,只要我們沿正確的方向運動,幾乎所有足夠大的A值都會可靠地出現(xiàn)對抗示例。正確的分類僅在數(shù)據(jù)中出現(xiàn)x的細歧管上發(fā)生。 R n的大部分由對抗性示例和垃圾分類示例組成(請參閱附錄)。該地塊是由未經(jīng)培訓(xùn)的maxout網(wǎng)絡(luò)制作的。左圖)顯示了10個MNIST類中每個類的softmax層自變量的圖,因為我們在單個輸入示例中改變了A。正確的類別是4。我們看到,每個類別的未歸一化對數(shù)概率與A明顯呈分段線性關(guān)系,并且錯誤的分類在A值的較大范圍內(nèi)都是穩(wěn)定的。此外,隨著我??們增加A足以進入垃圾投入體系,這種預(yù)測變得非常極端。右)用于生成曲線的輸入(左上方=負A,右下方=正A,黃色框表示正確分類的輸入)。
關(guān)于為何存在對抗性示例的另一個假設(shè)是,單個模型具有奇怪的怪癖,但是對許多模型求平均會導(dǎo)致對抗性示例被淘汰。 為了驗證該假設(shè),我們在MNIST上訓(xùn)練了12個maxout網(wǎng)絡(luò)的集合。 每個網(wǎng)絡(luò)都使用不同的種子進行訓(xùn)練,以用于隨機數(shù)生成器,該生成器用于初始化權(quán)重,生成丟失掩碼以及選擇數(shù)據(jù)的最小批以進行隨機梯度下降。 在旨在干擾A = .25的整個集成的對抗示例中,該集成的錯誤率為91.1%。 如果我們改為使用僅干擾一組成員的對抗性示例,則錯誤率降至87.9%。 集合僅提供有限的抵抗對抗性干擾的能力。
10.總結(jié)與討論
作為總結(jié),本文提出了以下觀察意見:
?對抗性示例可以解釋為高維點積的屬性。它們是模型過于線性而不是非線性的結(jié)果。
?跨不同模型的對抗性示例的概括可以解釋為對抗性攝動的結(jié)果與模型的權(quán)重向量高度一致,并且不同的模型在訓(xùn)練以執(zhí)行相同任務(wù)時會學(xué)習(xí)相似的功能。
?擾動的方向而不是空間中的特定點最為重要。 空間中沒有充滿對抗性實例的口袋,這些對抗性實例像有理數(shù)一樣精確地貼圖了實數(shù)。
?因為這是最重要的方向,所以對抗性擾動會在不同的干凈示例中普遍存在。
我們介紹了一系列用于生成對抗性示例的快速方法。
?我們已經(jīng)證明對抗訓(xùn)練可以導(dǎo)致正規(guī)化;比輟學(xué)更正規(guī)化。
?我們進行的控制實驗無法以簡單但較少的方式重現(xiàn)此效果包括L1權(quán)重衰減和增加噪聲在內(nèi)的高效正則器
?易于優(yōu)化的模型容易受到干擾。
?線性模型缺乏抵抗對抗性擾動的能力;僅應(yīng)訓(xùn)練具有隱藏層的結(jié)構(gòu)(適用通用逼近定理),以抵抗對抗性擾動。
?RBF網(wǎng)絡(luò)可以抵抗對抗性的例子。
?受過訓(xùn)練以模擬輸入分布的模型不能抵抗對抗性示例。
?合奏不能抵抗對抗性的例子。附錄中提供了有關(guān)垃圾分類示例的其他一些觀察結(jié)果:
?垃圾分類的例子無處不在,很容易產(chǎn)生。
?淺線性模型不能抵抗垃圾分類示例。
?RBF網(wǎng)絡(luò)可以抵抗垃圾分類的示例。
基于梯度的優(yōu)化是現(xiàn)代AI的主力軍。使用設(shè)計為足夠線性的網(wǎng)絡(luò)-無論是ReLU或maxout網(wǎng)絡(luò),LSTM還是經(jīng)過精心配置的Sigmoid網(wǎng)絡(luò),都不會過飽和-我們能夠解決我們關(guān)心的大多數(shù)問題,至少在訓(xùn)練上對抗性示例的存在表明,能夠解釋訓(xùn)練數(shù)據(jù),甚至能夠正確標(biāo)記測試數(shù)據(jù)并不意味著我們的模型真正理解了我們要求他們執(zhí)行的任務(wù)。取而代之的是,它們的線性響應(yīng)對數(shù)據(jù)分布中未出現(xiàn)的點過于自信,而這些自信的預(yù)測通常是高度錯誤的。這項工作表明,我們可以通過明確識別有問題的點并在每個點處校正模型來部分糾正此問題。但是,可能還會得出一個結(jié)論,即我們使用的模型族本質(zhì)上存在缺陷。易于優(yōu)化的代價是容易被誤導(dǎo)的模型。這激勵了優(yōu)化程序的發(fā)展,該優(yōu)化程序能夠訓(xùn)練行為在局部更穩(wěn)定的模型。
?
總結(jié)
- 上一篇: 小波分析及相应MATLAB实现
- 下一篇: 怎么用计算机撩人,如何用你的专业“撩人”