FGPM:文本对抗样本生成新方法
?PaperWeekly 原創(chuàng) ·?作者|孫裕道
學校|北京郵電大學博士生
研究方向|GAN圖像生成、情緒對抗樣本生成
論文標題:
Fast Gradient Projection Method for Text Adversary Generation and Adversarial Training
論文鏈接:
https://arxiv.org/abs/2008.03709
引言
本文是關(guān)于文本類對抗樣本的生成的文章。要清楚的是由于圖片和文本數(shù)據(jù)內(nèi)在的不同,用于圖像的對抗攻擊方法無法直接應用于文本數(shù)據(jù)上。
首先圖像數(shù)據(jù)是連續(xù)的(準確地說是近似連續(xù),因為圖像像素值是 0 到 255 的整數(shù)值,但是如果輸出的像素值是浮點數(shù)可以進行取整操作),但文本數(shù)據(jù)是離散的(比如有一個 one-hot 編碼為 000001 表示的“道”字,那么編碼 000010 表示的字與道字不存在連續(xù)性)。
這也就是為什么當前文本生成圖像整體的生成質(zhì)量普遍不高的原因,因為不能很好地將圖像的連續(xù)空間與文本的離散空間統(tǒng)一起來。
其次,僅僅對像素值進行微小的改變就可以造成圖像數(shù)據(jù)的擾動,而且這種擾動是很難被人眼察覺的。但是對于文本的對抗攻擊中,小的擾動很容易被察覺,但人類同樣能猜出本來表達的意義。
因此 NLP 模型需要對可辨識的特征魯棒,而不像視覺只需要對不太重要的特征魯棒。現(xiàn)有的文本攻擊方法雖然有效,但還不足以應用于實際的文本對抗訓練中,本文提出了一種基于同義詞替換的快速梯度投影方法(FGPM),我對 FGPM 方法進行詳細解讀。
當前文本對抗樣本的研究
引言中已經(jīng)提及到在文本域中,詞法、語法和語義的約束以及離散的輸入空間使得文本對抗樣本的生成變得更加困難。目前的攻擊方法包括字符級攻擊,單詞級攻擊還有句子級攻擊。為了方便查閱我對這些文章進行了匯總具體如下所示:字符級的攻擊論文有:
論文標題:
Deep Text Classification Can be Fooled
論文鏈接:
https://www.ijcai.org/Proceedings/2018/0585.pdf
論文標題:
TextBugger: Generating Adversarial Text Against Real-world Applications
論文鏈接:
https://arxiv.org/abs/1812.05271
論文標題:
HotFlip: White-Box Adversarial Examples for Text Classification
論文鏈接:
https://www.aclweb.org/anthology/P18-2006.pdf
單詞級的攻擊論文有:
論文標題:
Crafting Adversarial Input Sequences for Recurrent Neural Networks
論文鏈接:
https://arxiv.org/abs/1604.08275
論文標題:
Towards Crafting Text Adversarial Samples
論文鏈接:
https://arxiv.org/abs/1707.02812
論文標題:
Adversarial Texts with Gradient Methods
論文鏈接:
https://arxiv.org/abs/1801.07175
論文標題:
Seq2Sick: Evaluating the Robustness of Sequence-to-Sequence Models with Adversarial Examples
論文鏈接:
https://arxiv.org/abs/1803.01128
句子級別的攻擊論文有:
論文標題:
Adversarial Example Generation with Syntactically Controlled Paraphrase Networks
論文鏈接:
https://www.aclweb.org/anthology/N18-1170/
論文標題:
Semantically Equivalent Adversarial Rules for Debugging NLP models
論文鏈接:
https://www.aclweb.org/anthology/P18-1079/
最近的研究表明,對于字符級的攻擊,拼寫檢查器可以很容易地修復干擾。對于單詞級別的攻擊,HotFlip 雖然可以進行攻擊,但是由于句法和語義的限制,無法生成大量的對抗樣本。
對于句子級別的攻擊,通常是基于轉(zhuǎn)述這樣會使得對手生成需要更長的時間。綜上所述,文本類的攻擊要么面臨基于梯度的擾動的語義保持質(zhì)量的挑戰(zhàn),要么是基于查詢的同義詞替換的高計算量的成本。
核心思想
該論文中作者提出了一種基于同義詞替換的快速梯度投影方法(FGPM),該方法根據(jù)梯度大小和原單詞與候選單詞在梯度方向上的投影距離的乘積來計算每個替換的得分。
FGPM 具有一定的攻擊性能和可轉(zhuǎn)移性,同時比目前最快的文本攻擊方法快 20 倍左右(時間上的統(tǒng)計)。作者還將通過 FGPM 生成的對抗樣本與對抗訓練結(jié)合起來作為一種模型防御的手段,并擴展到大型神經(jīng)網(wǎng)絡和數(shù)據(jù)集。
模型介紹
論文作者形式化地定義了用于文本分類的對抗樣本,并詳細描述了所提出的對抗性攻擊方法快速梯度投影法(FGPM)。
4.1 文本對抗樣本
設 表示包含所有可能輸入文本的空間, 表示輸出空間。設 表示由 個單詞組成的輸入樣本, 是包含輸入文本中所有可能單詞的字典。分類器 學習一個映射 ,使得對于任何一個樣本 ,預測的標簽為 。
設 表示類別 上分類器 的 logit 輸出。攻擊方在 上添加一個不可察覺的擾動 ,目的是生成誤導分類器 的對抗樣本 ,具體的優(yōu)化形式如下所示:
其中, 是表示擾動上界的超參數(shù)。 是 范數(shù)距離度量,其通常表示單詞替換率 ,作為同義詞替換引起的擾動的度量如下所示:
其中, 是一個指示函數(shù),,。
4.2 對抗樣本的生成
現(xiàn)已有研究表明反擬合可以幫助去除原 glove 詞向量空間中也被視為“相似詞”的反義詞,提高向量表示語義相似性的能力。在該論文中作者通過反擬合對 glove 詞向量進行處理,并在嵌入空間中為每個單詞 定義一個同義詞集,如下所示:
其中 是一個超參數(shù),它限制了嵌入空間中同義詞的最大歐式距離。作者得到了每個單詞 的同義詞集 ,本文中需要解決的最重要的問題就是同義詞的選擇和替換順序的確定。
如下圖所示,對于每個單詞 ,選擇一個單詞 ,它對整個替換過程最為有利,論文中稱其為最優(yōu)同義詞。由于尋找最佳同義詞的很費勁,以往的研究是通過貪婪地選取一個同義詞 ,使分類置信度最小化:
其中 。選擇過程是非常耗時的,為了降低基于深度模型的計算復雜度,本文作者利用梯度的大小與詞嵌入空間中兩個同義詞在梯度方向上的投影距離的乘積來估計變化量,從而得到分類置信度。具體如下圖所示,首先計算每個單詞 的梯度 ,然后通過計算 ? 來估計變化量,并確定最優(yōu)同義詞 ,具體的公式如下所示:
對于在文本 每個單詞 ,作者使用上面的詞替換策略選擇其最優(yōu)替代同義詞,并獲得一組候選集 。
之后需要確定應該替換文本 中的哪個單詞。類似于這個詞替換策略,最大的擾動值投影梯度的公式為:
為了方便理解,我將原論文的算法框架圖重新進行了整理如下圖所示,為了生成一個文本對抗樣本,作者采用了同義詞替換和替換順序策略迭代地進行單詞替換,直到分類器做出錯誤的預測。
為了避免在同一文本位置多次替換所造成的語義偏移,作者為原句子構(gòu)造了一個候選同義詞集,并將所有的替換詞 約束到該集合中,算法中還設置了單詞替換率的上限,在每次迭代中,FGPM 只通過反向傳播計算一次梯度。
FGPM的對抗訓練
以前的研究已經(jīng)表明將對抗樣本納入對抗訓練可以提高模型的魯棒性。但是這種改進是有限的。對抗性訓練需要大量基于當前模型參數(shù)生成的對抗性樣本才能更好地增強魯棒性。
由于文本對抗樣本生成效率低下,現(xiàn)有的基于同義詞替換的文本攻擊方法無法為對抗性訓練提供足夠的樣本。鑒于 FGPM 的高效性,作者采用 FGPM 的對抗性訓練來有效地提高文本分類的模型魯棒性。具體的對抗訓練的目標函數(shù)如下:
其中 是 FGPM 基于當前模型參數(shù) 生成的對抗樣本。?
實驗結(jié)果
作者用四種對抗性攻擊方法,在三個涉及三個不同神經(jīng)網(wǎng)絡的基準數(shù)據(jù)集上對所提出的 FGPM 進行了實證評估。實驗中由于攻擊基線的效率較低,在每個數(shù)據(jù)集中隨機抽取 200 個實例,并根據(jù)這些攻擊方法針對不同的模型生成對抗樣本。?
6.1 數(shù)據(jù)集?
本文的數(shù)據(jù)集為三個廣泛使用的基準數(shù)據(jù)集分別是 AG’s News、DBPediaontology 和 Yahoo Answers。AG’s News 數(shù)據(jù)集由世界、體育、商業(yè)和科技四個類別的新聞文章組成,每個類別包括 30000 個訓練樣本和 1900 個測試示樣本。
DBPedia 數(shù)據(jù)集是通過從 dbpedia2014 中挑選 14 個不重疊的類來構(gòu)建的,DBPedia 是一個眾包社區(qū)努力從 Wikipedia 中提取結(jié)構(gòu)化信息。Yahoo Answers 是一個包含 10 個類的主題分類數(shù)據(jù)集,每個類包含 14 萬個訓練樣本和 5000 個測試樣本。?
6.2 對抗攻擊有效性評估?
為了評估攻擊的有效性,作者從攻擊下的模型分類精度和可轉(zhuǎn)移性兩個方面與基線算法進行比較。如下表所示,作者給出了 FGPM 下的分類精度和三個標準數(shù)據(jù)集的基線攻擊。
攻擊方法越有效,目標模型的分類精度越低。可以觀察到 FGPM 比其他基于 DBPedia 數(shù)據(jù)集的 CNN 分類方法降低了更多的分類準確率,說明所提出的梯度投影技術(shù)顯著提高了白盒攻擊的有效性。
對抗樣本的可遷移性是指通過在特定模型上生成對抗樣本來降低不同模型的分類精度的能力,這是現(xiàn)實世界應用中的另一個嚴重威脅。為了說明 FGPM 的可轉(zhuǎn)移性,作者在每種模型上通過不同的攻擊方法和在這些對抗樣本上評估其他模型的分類精度。如下表所示,FGPM 生成的對抗樣本通常產(chǎn)生次優(yōu)的可遷移性性。
文本對抗樣本中攻擊效率對于評估攻擊方法也很重要,尤其是當將攻擊作為一種防御方法納入對抗訓練時。對抗訓練需要高效訓練才能有效地提高模型的魯棒性。
如下表所示,FGPM 生成 200 個對抗樣本的平均時間是 GSA 的近 20 倍,是基于同義詞替換的第二快攻擊,但 GSA 攻擊性能比 FGPM 差,可傳遷移也較低。FGPM 平均比 IGA 快 970 倍,IGA 對分類精度的影響最大,綜合來說,FGPM 在攻擊效果和時間消耗都是可觀的。
如下表所示。對于常規(guī)訓練,在不同的對抗性攻擊下,模型在所有數(shù)據(jù)集上的分類精度都會急劇下降。相比之下,SEM 和 TF 都能穩(wěn)定有效地提高模型在所有模型和數(shù)據(jù)集中的魯棒性。?
一個好的防御方法不僅要防御對抗性攻擊,還要抵抗對抗性可遷移性。為了評估各模型對敵方示例可轉(zhuǎn)移性的阻斷能力,作者在 DBPedia 上正常訓練的情況下,對不同攻擊方法生成的對抗樣本進行分類精度評估。如下表所示,TF 比常規(guī)訓練和防御基準算法更成功地阻止了對抗樣本的可遷移性。?
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學者和學術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學習心得或技術(shù)干貨。我們的目的只有一個,讓知識真正流動起來。
?????來稿標準:
? 稿件確系個人原創(chuàng)作品,來稿需注明作者個人信息(姓名+學校/工作單位+學歷/職位+研究方向)?
? 如果文章并非首發(fā),請在投稿時提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認每篇文章都是首發(fā),均會添加“原創(chuàng)”標志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請單獨在附件中發(fā)送?
? 請留下即時聯(lián)系方式(微信或手機),以便我們在編輯發(fā)布時和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術(shù)平臺。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號后臺點擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的FGPM:文本对抗样本生成新方法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 苹果 2024 秋季新品发布会一文汇总:
- 下一篇: win10家庭版怎么设置管理员权限 设置