NLP领域的首次Hard Label黑盒攻击!
文 | 阿毅
編 | 小軼
背景
前段時間已經(jīng)和大家分享了兩篇關(guān)于NLP Privacy的文章。今天,我們又來給大家推送優(yōu)質(zhì)論文了(公眾號學(xué)習(xí)法)。其實,NLP與其他方向的跨界結(jié)合這段時間層出不窮,且都發(fā)表到了非常好的頂會上。目前有越來越多的 NLP 研究者開始探索文本對抗攻擊這一方向,以 2020 年 ACL 為例,粗略統(tǒng)計有超過 10 篇相關(guān)論文。NLP Privacy可謂是NLP研究的下一個風(fēng)口。
本次給大家介紹一篇文本對抗攻擊和NLP結(jié)合的文章,目前該文章被AAAI’21接收,且代碼已經(jīng)開源(非常良心[19])!
論文題目:
Generating Natural Language Attacks in a Hard Label Black Box Setting (AAAI’21)
論文鏈接:
https://arxiv.org/pdf/2012.14956.pdf
Arxiv訪問慢的小伙伴也可以在【夕小瑤的賣萌屋】訂閱號后臺回復(fù)關(guān)鍵詞【0317】下載論文PDF~
論文概要
首先,按照慣例,一句話總結(jié)論文:本文在NLP領(lǐng)域中的Hard Label黑盒環(huán)境下提出了一種使用遺傳算法優(yōu)化的基于決策的攻擊策略。具體來說,該策略可以針對文本分類和包含任務(wù)生成高質(zhì)量的對抗樣本。本文提出的攻擊策略利用基于種群的優(yōu)化算法,僅通過觀察目標(biāo)模型預(yù)測的top標(biāo)簽來設(shè)計合理且語義相似的對抗樣本。此外,在每次算法優(yōu)化迭代中都允許進(jìn)行單詞替換,從而最大限度地提高原始文本和對抗文本之間的整體語義相似度。相比其他的攻擊策略,本文的方法不依賴使用替代模型或任何種類的訓(xùn)練數(shù)據(jù)。我們重點關(guān)注上述加粗字體的字眼即可知本文的特色在于使用遺傳算算法優(yōu)化基于決策的攻擊策略來解決hard label black box中攻擊難以實施的問題。
最后本文全部的貢獻(xiàn)總結(jié)如下:
作者提出了一種新穎的基于決策的攻擊策略,并為文本分類任務(wù)生成了合理且語義相似的對抗樣本。
作者設(shè)計的機制可以在不加標(biāo)簽的情況下成功生成對抗性樣本而無需掌握任何訓(xùn)練數(shù)據(jù)知識或替代模型。
作者提出的攻擊利用了基于種群的優(yōu)化算法,該過程使原始文本和對抗文本之間的整體語義相似性最大化。
與以前的攻擊策略相比,作者的攻擊在較高的限制條件下也能實現(xiàn)更高的成功率和更低的干擾率。
Hard Label Black Box Settings [12]: 該設(shè)置一般在視覺領(lǐng)域中被研究[13],具體是指攻擊者在不掌握模型的信息的情況下只能得到被攻擊的機器學(xué)習(xí)系統(tǒng)提供的有限個輸入查詢相對應(yīng)的預(yù)測結(jié)果。簡言之,攻擊者只能得到一些(數(shù)目很少)hard label的預(yù)測輸出。本文還指出,這是首次在文本領(lǐng)域探究如何在該設(shè)置下設(shè)計對抗攻擊策略。另外,遺傳算法思想應(yīng)用到對抗攻擊當(dāng)中最早要追溯到2018年,近幾年的工作中有不少是關(guān)于此類方法的(具體可見[12]中的總結(jié)),究其原因是遺傳算法非常適合來優(yōu)化某個目標(biāo)函數(shù)。本文的核心思想是使用種群優(yōu)化算法優(yōu)化文中的目標(biāo)函數(shù)來設(shè)計的攻擊策略。
問題定義
簡單來說,本文的目標(biāo)的是要生成一段和真實語句在語義上很接近的對抗語句,該對抗語句可以導(dǎo)致模型產(chǎn)生錯誤輸出。從優(yōu)化的角度來開看,我們需要盡可能大的情況下,使得模型產(chǎn)生錯誤的輸出。
詳細(xì)的嚴(yán)謹(jǐn)定義如下所示:
注意,是不連續(xù)的函數(shù),因為模型僅輸出硬標(biāo)簽。這也使得等式(2)中的目標(biāo)函數(shù)不連續(xù)并且難以優(yōu)化。
攻擊策略
如圖所示,本文設(shè)計了一個三步走的攻擊策略:初始化、縮小搜索空間、種群優(yōu)化。接下來我們詳細(xì)介紹每個步驟設(shè)計的初衷和具體細(xì)節(jié):
初始化
作者為了生成一個與原始輸入在語義上相似的對抗性示例,限制了每個單詞在反向擬合嵌入空間中的前50個同義詞的替換[14]。然后,作者過濾掉詞性標(biāo)簽與原始單詞不同的同義詞,這樣可以確保同義詞符合上下文的語境并且句子在語法上是正確的,即原文中算法1中的3-7行。
縮小搜索空間
因為作者使用X*替換很多的同義詞,因此整體算法的搜索空間就會變得很大,這會增加優(yōu)化算法的時間開銷并會因為收斂很慢而導(dǎo)致很難尋到最優(yōu)值。因此,在此步驟中,作者通過將一些同義詞替換為各自的原始單詞來減少中的替換計數(shù)。以下步驟用于減少中的替換計數(shù):
給定初始化樣本,其中表示初始化期間替換的同義詞。每個同義詞被其原始的代替(原文算法1,第8-10行)。
不符合對抗樣本標(biāo)準(zhǔn)的文本將被過濾掉。從剩余的文本樣本中,根據(jù)和之間的語義相似性對每個替換項(帶有的)進(jìn)行評分。所有替換項均基于該評分以降序排序(原文算法1,第11-13行)。
中的同義詞將按照步驟2中確定的順序用其原始對應(yīng)語句替換回去,直到滿足對抗標(biāo)準(zhǔn)(原文算法1,第14-17行)。
對抗性樣本的搜索空間:虛線表示所有可能的組合。粗線顯示所選的組合,該組合與X的語義相似度最高,并且滿足對抗標(biāo)準(zhǔn)。
這可以看作是將初始樣本移到目標(biāo)模型的決策邊界附近。此過程非常有效,因為它不僅可以加快優(yōu)化算法的速度,而且還可以防止其收斂到局部最優(yōu)。
種群優(yōu)化算法
作者使用種群優(yōu)化算法來優(yōu)化目標(biāo)函數(shù)(2),其中最重要的兩個步驟是:crossover(打籃球的小伙伴肯定異常興奮啦)和mutation。該算法的一般步驟如下:
初始化:使用遺傳算法從任意一組初始候選者開始尋優(yōu)。
選擇:使用fitness函數(shù)評估每個候選人。根據(jù)他們的fitness值選擇兩個候選人作為parents。
Crossover:選定的parents經(jīng)過Crossover以產(chǎn)生下一組候選者。
Mutation:對新的候選者進(jìn)行變異以確保多樣性并更好地探索搜索空間。重復(fù)步驟2-4進(jìn)行特定次數(shù)的迭代。
之所以使用使用遺傳算法是因為它直接適用于離散的輸入空間。此外,與其他基于整體的優(yōu)化方法相比,遺傳算法更直觀,更易于應(yīng)用。本文與其他相似方法[15]不同,作者是將兩個文本序列之間的語義相似性最大化。接下來重點解析選擇、crossover和mutation操作。
Mutation
Mutation操作實際上就是為了挑選出高質(zhì)量的對抗樣本作為遺傳算法的樣本去進(jìn)行變異(類似于細(xì)胞分裂),**那么問題來了:什么是高質(zhì)量的對抗樣本呢?**作者在文中給出了兩個公式:
函數(shù)表示相似度判斷函數(shù),其作用是為了判斷對抗樣本和真實樣本的語義相似度。在上述式子中就是我們需要挑選進(jìn)行變異的樣本,是全部對抗樣本,是正常樣本,因此上述因子意味著所挑選的不僅符合對抗樣本的要求且相似度比初始化的對抗樣本要大,因此我們只需要優(yōu)化以下目標(biāo)函數(shù)即可獲得高質(zhì)量的對抗樣本:
選擇
選擇操作一開始是隨機初始化的,但是隨著上述Mutation操作的完成,選擇就是一個技巧活了,如何選擇兩個候選者成為parents至關(guān)重要。作者把對抗樣本與真實樣本的語義相似度作為fitness函數(shù),然后使用采樣函數(shù)來選擇parents。具體來說,,其中是從上述Mutation操作中所挑選的candidate中按一定比例采樣得到的,因此這樣可以得到相似度非常高的兩個對抗樣本作為parents:
Crossover
Crossover操作,顧名思義,就是進(jìn)行交叉重復(fù)操作。具體來說,給定(即parents),然后從中為候選單詞的每個位置隨機選擇一個單詞,以此交叉重復(fù)多次,以確保產(chǎn)生足夠多的搜索空間中的各類組合。此操作的目的是將生成多種滿足對抗樣本標(biāo)準(zhǔn)的新候選文本序列。具體公式如下:
總結(jié):該遺傳算法最主要的目的就是在文本是離散的條件下依然可以通過迭代優(yōu)化選擇出所有對抗樣本中語義相似度最高的那些高質(zhì)量對抗樣本,因此該算法可以找到與真實樣本極其接近的所有對抗樣本。
結(jié)論
接下來,我們對文章進(jìn)行優(yōu)缺點總結(jié)。
優(yōu)點:
首次在NLP領(lǐng)域中研究Hard Label 黑盒環(huán)境下的對抗攻擊(話題很新,且該領(lǐng)域慢慢在火起來);
實驗非常充分,baselines也很豐富(實驗部分此次不在推文中介紹,感興趣的同學(xué)可以自行去查看原文);
使用遺傳算法優(yōu)化的基于決策的黑盒攻擊恰好克服了文本離散的數(shù)據(jù)特點,且可以生成語義相似度很高的對抗樣本
缺點:
該對抗攻擊的細(xì)粒度不夠,更加探究更加細(xì)粒度的對抗攻擊;
該對抗攻擊非常依賴于Hard Label產(chǎn)生的輸出的質(zhì)量,不然也就無法尋優(yōu)出高質(zhì)量的對抗樣本;
遺傳算法的搜索效率仍然是一個挑戰(zhàn),因此如何高效地進(jìn)行搜索可能是該類方法的一個瓶頸。
注意:本文部分內(nèi)容參考了其他網(wǎng)站或者博客的總結(jié),均在此表示感謝,并在引用處[16-18]引用,希望大家樂于分享知識,共同進(jìn)步!
萌屋作者:阿毅
目前在澳洲讀PhD,方向是Security and Privacy in Machine Learning,前騰訊天衍實驗室實習(xí)生。一個熱愛籃球但打球很菜的陽光小伙子,也很喜歡爬山。期待和對ML\FL\NLP安全和隱私問題感興趣的小伙伴一起暢談未來(微信號: Sea_AAo)
作品推薦
我拿模型當(dāng)朋友,模型卻想泄漏我的隱私?
后臺回復(fù)關(guān)鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職討論群
后臺回復(fù)關(guān)鍵詞【頂會】
獲取ACL、CIKM等各大頂會論文集!
?
[1].Szegedy C, Zaremba W, Sutskever I, et al. Intriguing properties of neural networks[J]. arXiv preprint arXiv:1312.6199, 2013.
[2].Akhtar N, Mian A. Threat of adversarial attacks on deep learning in computer vision: A survey[J]. IEEE Access, 2018, 6: 14410-14430.
[3].Ribeiro M T, Wu T, Guestrin C, et al. Beyond accuracy: Behavioral testing of NLP models with CheckList[J]. arXiv preprint arXiv:2005.04118, 2020.
[4].Tramèr F, Kurakin A, Papernot N, et al. Ensemble adversarial training: Attacks and defenses[J]. arXiv preprint arXiv:1705.07204, 2017.
[5].Moosavi-Dezfooli S M, Fawzi A, Frossard P. Deepfool: a simple and accurate method to fool deep neural networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 2574-2582.
[6].Papernot N, McDaniel P, Goodfellow I. Transferability in machine learning: from phenomena to black-box attacks using adversarial samples[J]. arXiv preprint arXiv:1605.07277, 2016.
[7].Papernot N, McDaniel P, Goodfellow I, et al. Practical black-box attacks against machine learning[C]//Proceedings of the 2017 ACM on Asia conference on computer and communications security. 2017: 506-519.
[8].Lu J, Issaranon T, Forsyth D. Safetynet: Detecting and rejecting adversarial examples robustly[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 446-454.
[9].Chen S, He Z, Sun C, et al. Universal adversarial attack on attention and the resulting dataset damagenet[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.
[10].https://www.secrss.com/articles/25644
[11].Zhang W E, Sheng Q Z, Alhazmi A, et al. Adversarial attacks on deep-learning models in natural language processing: A survey[J]. ACM Transactions on Intelligent Systems and Technology (TIST), 2020, 11(3): 1-41.
[12].Cheng M, Le T, Chen P Y, et al. Query-efficient hard-label black-box attack: An optimization-based approach[J]. arXiv preprint arXiv:1807.04457, 2018.
[13].Brendel W, Rauber J, Bethge M. Decision-based adversarial attacks: Reliable attacks against black-box machine learning models[J]. arXiv preprint arXiv:1712.04248, 2017.
[14].Mrk?i? N, Séaghdha D O, Thomson B, et al. Counter-fitting word vectors to linguistic constraints[J]. arXiv preprint arXiv:1603.00892, 2016.
[15].Alzantot M, Sharma Y, Elgohary A, et al. Generating natural language adversarial examples[J]. arXiv preprint arXiv:1804.07998, 2018.
[16].https://www.secrss.com/articles/25644
[17].https://www.jiqizhixin.com/articles/2019-06-10-6
[18].https://www.aminer.cn/research_report/5f50600e3c99ce0ab7bcb539
[19].https://www.github.com/RishabhMaheshwary/hard-label-attack
總結(jié)
以上是生活随笔為你收集整理的NLP领域的首次Hard Label黑盒攻击!的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Bert在CV领域的应用
- 下一篇: 新型冠状病毒传染性有多强?何时达到疫情峰