mfc static 文本自适应宽度_基于单双词的自适应单调启发式搜索的文本攻击
圖1 BU-MHS算法流程圖
在本文中,我們提出了一種新的基于單詞的攻擊方法——Bigram and Unigram based Monotonic Heuristic Search (BU-MHS),有效地解決了上述問題。與傳統的單字符詞攻擊不同,我們同時考慮單詞(unigram)替換和雙詞(bigram)替換。在我們的方法中,我們通過用同義詞替換一個雙詞組(例如,high school ?secondary school)來生成更自然的文本。此外,我們建議通過同時考慮同義詞和與義位一致的詞來替換輸入詞。通過合并這些互補的備選項,我們有更好的選擇來編寫高質量的對抗性文本。更重要的是,我們提出了一種有效的候選詞搜索方法,即Monotonic Heuristic Search (MHS) 來確定詞的優先級。圖1展示了我們算法的流程圖。本工作的主要貢獻總結如下:
為了產生自然的對抗性樣本,避免語義錯誤,我們提出了在單字符級和雙字符級對文本文檔進行攻擊的建議。
我們提出了一種混合的方法,從同義詞候選詞和義素候選詞產生替換。這種互補的組合使我們能夠寫出更有意義的對抗性例子。
我們設計MHS來有效地對替換詞進行優先排序,這將單詞修改的數量最小化,并減少語義和句法錯誤。
數據庫本文使用了三個公開的數據集:IMDB、AG’s News、Yahoo! Answers。其中IMDB是一個二元情感分析數據庫,共包含50,000條電影評論。AG’s News是一個新聞分類數據集,包含127600個新聞樣本,這些樣本分為四類。Yahoo!Answers是一個10類的主題分類數據庫,包含1,400,000個訓練樣本和60,000個測試樣本。
實驗設置我們將攻擊算法應用于四種深度學習模型,包括Word CNN, Character-based CNN (Char-CNN), Word LSTM, Bidirectional LSTM (Bi-LSTM).我們選用了6中對比算法,包括RAND,WSA,PWWS,PSO,TextFooler(TEFO),BERT-ATTACK(BEAT)。為了驗證我們的BU-MHS(以及另外兩個版本U-MHS,HU-MHS)算法的有效性,我們采用兩個衡量標準:攻擊成功率(Successful Attack Rate, SAR)和平均修改單詞個數。正常來說,一個理想的文本攻擊算法目的是通過修改盡量少的單詞來實現盡可能高的攻擊成功率。
實驗結果 Table 3和Table 4分別列出了攻擊成功率和平均修改單詞個數的實驗結果。Table 3和Table 4中的結果說明我們的HU-MHS, BU-MHS, U-MHS幾乎包攬了表現最好的前三名。實驗結果表明,通過改變最小的詞數,我們的BU-MHS與現有的其他模型相比,獲得了最高的攻擊成功率。為了證明雙詞替換的優越性,我們對IMDB(Table 6)、AG’s News(Table 7)、Yahoo! Answers(Table 8)分別列出了三個對抗樣本。從對抗樣本中可以看出,我們的雙詞替換可以大大減少語義的改變。例如,在Table 7中,我們的方法替換了一個符號(Olympic Games ?Olympiad),與HU-MHS變化兩個單詞相比,前者引起的語義變異較少。
可遷移性(transferability)對抗性樣本的遷移性是指通過誤導某一個特定的模型F而產生的對抗性樣本是否會誤導其他的模型F’。為了驗證遷移能力,我們將攻擊Word CNN生成的對抗樣本用于其他三個結構不同的模型,分別命名為Word CNN2, Word CNN3, Word CNN4,以及LSTM模型。圖2展示了遷移攻擊的結果。從圖2可知,我們的算法取得了最好的遷移攻擊表現。
對抗性再訓練(Adversarial retraining)對抗性再訓練是通過將對抗性樣本加入到訓練集中來提高模型魯棒性的有效方法。在這個實驗中,我們用AG’s News隨機生成了{500,1000,1500,2000}個對抗樣本來再訓練Word CNN模型。Figure 3給出了訓練后Word CNN在測試集中的識別結果。實驗結果表明,我們BU-MHS生成的對抗樣本對于提高模型魯棒性更有效。另外,我們還通過攻擊再訓練的模型來評估再訓練的模型是否對對抗性攻擊免疫。Table 9的結果表明,經過再訓練的受害者模型能夠在一定程度上抵抗攻擊。我們的BU-MHS在再訓練后比PWWS帶來更高的SAR,說明僅僅通過對抗性再訓練很難對BU-MHS進行防御。
針對性攻擊(Targeted attack)針對性攻擊是指將分類器誤導為某一指定的目標類。為了驗證針對性攻擊的表現,我們在AG’s News做了大量實驗,將分類器分別誤導為四個目標類:0 (World), 1 (Sports), 2 (Business), 3 (Sci/Tech). 表10的結果表明,對于所有的受害模型,我們的BU-MHS都比PWWS獲得了更高的SAR和更少的替換詞。這意味著我們的方法對于目標攻擊和非目標攻擊都是有效的。
Table 10:Targetedattack on AG's News dataset by attacking three victim models. The four targetlabels are 0 (World), 1 (Sports), 2 (Business), and 3 (Sci/Tech).
論文引用
Xinghao Yang, Weifeng Liu, James Bailey, Dacheng Tao, Wei Liu. “Bigram and Unigram Based Text Attack via Adaptive MonotonicHeuristic Search.” Accepted by the 35th AAAI Conference on ArtificialIntelligence, 2021.
總結
以上是生活随笔為你收集整理的mfc static 文本自适应宽度_基于单双词的自适应单调启发式搜索的文本攻击的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python使用scrapy_pytho
- 下一篇: feign调用soap_Spring C