[paper]Feature Squeezing: Detecting Adversarial Examples in Deep Neural Networks
本文提出了兩種特征壓縮方法:
特征壓縮通過將與原始空間中許多不同特征向量相對應的樣本合并為單個樣本,從而減少了對手可用的搜索空間。通過將DNN模型對原始輸入的預測與對壓縮輸入的預測進行比較,特征壓縮可以很好的檢測出對抗樣本。本方法對于計算資源要求不高,可以與其他防御措施互補,并且可以結合聯合檢測框架使用。
Our approach, which we call feature squeezing, is driven by the observation that the feature input spaces are often unnecessarily large, and this vast input space provides extensive opportunities for an adversary to construct adversarial examples. Our strategy is to reduce the degrees of freedom available to an adversary by “squeezing” out unnecessary input features. The key idea is to compare the model’s prediction on the original sample with its prediction on the sample after squeezing, as depicted in Figure 1. If the original and squeezed inputs produce substantially di?erent outputs from the model, the input is likely to be adversarial. By comparing the di?erence between predictions with a selected threshold value, our system outputs the correct prediction for legitimate examples and rejects adversarial inputs.
特征壓縮核心思想:特征輸入空間通常不需要太大,因為過大的特征輸入空間會為對手生成對抗樣本提供更多可能。 策略是通過“壓縮”不必要的特征來降低對手生成對抗樣本的自由度。 關鍵思想是將模型對原始樣本的預測與壓縮后對樣本的預測進行比較。如果原始輸入和壓縮后的輸入產生了與模型實質上不同的輸出,則輸入可能是對抗性的。 通過將預測之間的差異與選定的閾值進行比較,系統會為合法樣本輸出正確的預測,并拒絕對抗樣本的輸入。
本文證明,通過預測非自適應對抗樣本的正確標簽,特征壓縮可以顯著增強模型的魯棒性,同時保留合法輸入的準確性,從而可以準確的檢測靜態對抗樣本。
主要貢獻是通過研究了特征壓縮的兩個方法:減少顏色位深度以及局部和非局部空間平滑實驗表明,特征壓縮可幫助DNN模型對11種不同的對抗樣本攻擊(不了解防御的情況)進行防御。 特征壓縮是其他對抗防御的補充,因為不會改變基礎模型,并且可以很容易地與其他防御(例如對抗訓練)組合在一起。
L∞L_\inftyL∞?范數表示所有維度上最大變化的的度量。
L∞L_\inftyL∞?范數攻擊表示可以改變所有像素,但對每個像素上的最大改變是受限的。
L2L_2L2?范數對應于xxx和x′x^{'}x′之間的歐幾里得距離。
在圖像許多像素上添加大量微小的變化時,該距離可以保持很小。
L0L_0L0?表示xxx和x′x^{'}x′之間變化的像素總數,而不是攝動量。
較大的位深度會使顯示的圖像更接近自然圖像,但是通常不需要太大的色彩深度來解釋圖像(人們識別大多數黑白圖像沒有問題)。本文使用三種流行的圖像分類數據集(MNIST,CIFAR-10和ImageNet)研究了位深度壓縮。實驗發現即使將原始圖像的位深度從8位(每個RGB通道)減少到更小,也不會顯著降低人類對圖像的可識別性。但如果位深度小于4,確實會造成一些人類可觀察到的損失。這是因為即使減少到每個通道相同的位數,我們也會丟失更多的彩色圖像信息。經過實驗發現位深度壓縮到4位足以消除許多對抗樣本,同時保留了對正常圖像的準確性。即證明了降低位深度確實可以在不損害分類精度的情況下減小對抗樣本生成的可能性。
局部平滑利用相鄰像素來平滑每個像素。 通過選擇加權相鄰像素的不同機制,可以將局部平滑方法設計為高斯平滑,均值平滑或中值平滑方法。中值平滑在應對根據L0L_0L0?范數的生成的對抗樣本時特別有效。
本文使用的是中值平滑。中值平滑是在圖像的每個像素上運行一個滑動窗口,其中中心像素被窗口內相鄰像素的中值代替。 中值平滑沒有減少圖像中像素的數量,而是將像素值分布在附近的像素上。邊緣上的像素采用反射填充。 中值平滑實質上是通過使相鄰像素更相似來將特征進行壓縮。中值平滑特別有效地去除圖像中稀疏出現的黑白像素(被稱為椒鹽噪聲),同時很好地保留對象的邊緣。
非局部平滑不同于局部平滑,因為它可以在更大的區域而不是相鄰的像素上平滑相似的像素。對于給定的圖像色塊,非局部平滑可在圖像的較大區域中找到幾個相似的色塊,并用這些相似色塊的平均值替換中心色塊。假設噪聲的平均值為零,對相似色塊進行平均將在保留對象邊緣的同時消除噪聲。與局部平滑類似,在平均操作中,有幾種可能的方式可以對相似的色塊進行加權,例如高斯,均值和中位數。
本文使用高斯核的一種變體。非局部平滑方法的參數通常包括搜索窗口大小(用于搜索相似塊的較大區域),塊(patches)大小和濾波器強度。
實驗結果:
總結
以上是生活随笔為你收集整理的[paper]Feature Squeezing: Detecting Adversarial Examples in Deep Neural Networks的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: app不能备份数据,更改allowBac
- 下一篇: 【FreeRTOS】队列管理