论文浅尝 | 一日看尽长安花--NLP可解释研究梳理
本文是對(duì)TACL2019《Analysis Methods in Neural Language Processing: A Survey》的翻譯和整理。
本文轉(zhuǎn)載自知乎,文章鏈接:https://zhuanlan.zhihu.com/p/265815975
導(dǎo)讀
NLP領(lǐng)域發(fā)展迅猛,其模型分析方法也正逐漸火熱。為什么要研究NLP的可解釋性?某種程度上,這一問(wèn)題又落入更大的范疇——為什么要研究機(jī)器學(xué)習(xí)模型的可解釋性?其支持者認(rèn)為,在于增加ML系統(tǒng)的可靠性、可信度、公平性和安全性等。此外,知其所以然也有助于改進(jìn)機(jī)器學(xué)習(xí)模型的效果。
而在NLP領(lǐng)域,這一問(wèn)題需要聯(lián)系其發(fā)展歷程來(lái)解答:
早期的NLP工作通常涉及特征工程,這些手工特征的含義是易于理解的——形態(tài)特性,詞法類別,句法類別,語(yǔ)義關(guān)系等等。理論上,人們可以通過(guò)觀察模型對(duì)這些特征賦予的權(quán)重來(lái)更好地理解模型在做什么。而對(duì)于現(xiàn)在普遍的端到端的(比如,從詞向量輸入到文本分類的輸出)神經(jīng)網(wǎng)絡(luò)模型,理解和分析它們的工作不是那么直觀。但是,既然這些模型結(jié)構(gòu)能夠捕捉文本的特征,那么早期的關(guān)于語(yǔ)言學(xué)概念的分析工作也應(yīng)當(dāng)適用于現(xiàn)在的NLP研究。
本文嘗試分析近年來(lái)NLP可解釋領(lǐng)域的工作,概括當(dāng)下的主流方向,并針對(duì)當(dāng)前工作的不足提出一些可能的未來(lái)方向。本文將圍繞以下幾方面展開(kāi):
語(yǔ)義特征學(xué)習(xí)
可視化方法
挑戰(zhàn)集
對(duì)抗樣本
解釋模型預(yù)測(cè)
其他研究
1. 語(yǔ)義特征學(xué)習(xí)
現(xiàn)代NLP模型通常是端到端的,沒(méi)有顯式編碼語(yǔ)義特征,所以人們很想知道模型到底都學(xué)到了什么。
研究方法
最常見(jiàn)的方法就是將模型的激活輸出和語(yǔ)義特征分類進(jìn)行關(guān)聯(lián)。
即,固定一個(gè)訓(xùn)練好的模型(例如在機(jī)器翻譯任務(wù))的權(quán)重,將其用于編碼語(yǔ)料并訓(xùn)練一個(gè)分類器做一些語(yǔ)義特征分類(例如詞性分類等)。分類結(jié)果的好壞反映了模型學(xué)習(xí)表示的好壞。
以上這一方法具有多個(gè)名字,如“輔助分類任務(wù)”(auxiliary prediction tasks),“診斷分類器”(diagnostic classifiers),以及“探針實(shí)驗(yàn)”(probing tasks)等。目前已有的工作總結(jié)如下:
舉一個(gè)神經(jīng)機(jī)器翻譯(NMT)任務(wù)的例子:
Xing Shi, Inkit Padhi, and Kevin Knight. 2016b. Does String-Based Neural MT Learn Source Syntax? In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 1526–1534, Austin, Texas. Association for Computational Linguistics.
首先訓(xùn)練兩個(gè)模型:英譯法和法譯英模型,然后將模型中的編碼器部分單獨(dú)在語(yǔ)料上運(yùn)行獲得中間狀態(tài),并介入邏輯回歸分類器用于不同語(yǔ)法特征分類。作者實(shí)驗(yàn)得出結(jié)論:NMT的編碼器能夠?qū)W習(xí)詞語(yǔ)層面和句子層面重要的語(yǔ)法信息,并且進(jìn)一步通過(guò)比較不同編碼層的表示發(fā)現(xiàn):在局部特征更多地體現(xiàn)在底層編碼結(jié)果中,而高層的結(jié)構(gòu)則學(xué)到句子的全局或者摘要的信息。
其他的尋找模型結(jié)構(gòu)和語(yǔ)義特征關(guān)聯(lián)的實(shí)驗(yàn)包括分析注意力權(quán)重和指代詞分辨的關(guān)聯(lián),以及直接和間接計(jì)算模型激活層輸出和語(yǔ)義特征的相關(guān)系數(shù)。
語(yǔ)義特征
上述實(shí)驗(yàn)涵蓋了許多有用的語(yǔ)義特征,從基本特征如句子長(zhǎng)度,詞語(yǔ)位置,詞語(yǔ)存在性,以及簡(jiǎn)單詞序,形態(tài)學(xué)結(jié)構(gòu)到語(yǔ)法和語(yǔ)義結(jié)構(gòu)的特征,此外還有音節(jié)、口音和風(fēng)格等語(yǔ)音特征等等。
盡管難以將這些分布廣泛的工作加以整合一統(tǒng),可以看出神經(jīng)網(wǎng)絡(luò)可以學(xué)到數(shù)量可觀的語(yǔ)言學(xué)信息。對(duì)于頻繁出現(xiàn)的特征,模型學(xué)習(xí)得很好;而對(duì)于少見(jiàn)的特征,對(duì)模型而言則較難學(xué)習(xí)。有工作發(fā)現(xiàn)LSTM可以捕捉到大部分情況的主語(yǔ)-動(dòng)詞的共現(xiàn)關(guān)系,而在更難的例子下需要一些直接的監(jiān)督信息。
另一個(gè)逐漸浮現(xiàn)出來(lái)的主題是研究模型學(xué)習(xí)的文本表示的層次化性質(zhì)。上文中提到的NMT模型的發(fā)現(xiàn)就能說(shuō)明這一點(diǎn),同時(shí)在RNN模型中也能看到語(yǔ)法信息出現(xiàn)在層次化的表示中。
此外,一些研究者(Williams等,2018;Maillard和Clark,2018)發(fā)現(xiàn)使用隱式樹(shù)狀結(jié)構(gòu)訓(xùn)練的模型在自然語(yǔ)言推理(Natural Language Inference,NLI)任務(wù)中比使用語(yǔ)法標(biāo)注樹(shù)的模型表現(xiàn)要好。更進(jìn)一步說(shuō),這些模型中的樹(shù)并沒(méi)有按照現(xiàn)有的語(yǔ)法理論構(gòu)建語(yǔ)法樹(shù),這也對(duì)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)語(yǔ)法信息的重要性帶來(lái)疑問(wèn)。
模型的相關(guān)結(jié)構(gòu)
在這一領(lǐng)域,模型的部分結(jié)構(gòu)被用于探究是否具有對(duì)語(yǔ)義信息的學(xué)習(xí)能力,包括:
詞向量
句向量
RNN的隱藏狀態(tài)和門(mén)控激活輸出
句子到句子模型的注意力權(quán)重
對(duì)CNN模型的研究工作較少。在語(yǔ)音領(lǐng)域和多模態(tài)相關(guān)的工作等,請(qǐng)參考上面的表。
局限
上述的分類方法可以證明模型可以捕捉一定的語(yǔ)義信息,然而這不一定能證明模型利用了這些信息進(jìn)行推理。例如,Vanmassenhove等(2017)研究了NMT(以及基于短語(yǔ)的統(tǒng)計(jì)機(jī)器翻譯)中的方面信息。他們訓(xùn)練了NMT句子編碼向量的分類器,發(fā)現(xiàn)他們可以在90%的時(shí)間內(nèi)準(zhǔn)確預(yù)測(cè)時(shí)態(tài)。但是,在評(píng)估輸出翻譯時(shí),他們發(fā)現(xiàn)只有79%的結(jié)果具有正確的時(shí)態(tài)。他們將此結(jié)果解釋為“在解碼過(guò)程中丟失了部分方面信息”。與此相關(guān)的是,Cífka和Bojar(2018)在翻譯質(zhì)量(BLEU)和表示質(zhì)量(分類任務(wù))方面比較了各種NMT模型的性能。他們發(fā)現(xiàn)兩者之間存在負(fù)相關(guān)關(guān)系,這表明高質(zhì)量的系統(tǒng)可能未在學(xué)習(xí)某些句子的含義。相反,Artetxe等(2018)指出,詞嵌入包含不同的語(yǔ)言信息,可以通過(guò)對(duì)學(xué)習(xí)的嵌入進(jìn)行線性變換來(lái)發(fā)現(xiàn)它。他們的結(jié)果提出了另一種解釋,表明“嵌入模型能夠?qū)Σ煌恼Z(yǔ)言信息進(jìn)行編碼,但對(duì)這些信息的表達(dá)方式有限制。”
從方法論的角度來(lái)看,大多數(shù)相關(guān)的分析工作都與互相關(guān)(correlation)有關(guān):具有語(yǔ)言屬性的神經(jīng)網(wǎng)絡(luò)組件之間的關(guān)聯(lián)程度如何?可能缺乏一種因果關(guān)系的度量:語(yǔ)言屬性的編碼如何影響系統(tǒng)輸出。Giulianelli等(2018)在這個(gè)問(wèn)題上取得了一些進(jìn)展。他們根據(jù)RNN隱藏狀態(tài)和門(mén)控在不同時(shí)間步長(zhǎng)預(yù)測(cè)了數(shù)字一致性。然后,他們根據(jù)預(yù)測(cè)和正確標(biāo)簽之間的差異,通過(guò)更改隱藏的激活來(lái)干預(yù)模型如何處理句子。這種提高的一致性預(yù)測(cè)準(zhǔn)確性,并且效果在句子過(guò)程中持續(xù)存在,表明此信息對(duì)模型有影響。但是,他們沒(méi)有報(bào)告對(duì)整體模型質(zhì)量的影響,例如通過(guò)測(cè)量困惑度。因果推理(causal inference)的方法可能會(huì)為其中一些問(wèn)題提供新的思路。
2. 可視化方法
可視化工具,不僅在語(yǔ)言領(lǐng)域,在其他領(lǐng)域都是是一類分析神經(jīng)網(wǎng)絡(luò)的重要工具。
早期的工作可視化了語(yǔ)言建模任務(wù)訓(xùn)練的RNN中的隱藏單元激活輸出,并觀察到它們?nèi)绾闻c某些語(yǔ)法關(guān)系(例如相關(guān)性)相對(duì)應(yīng)(Elman,1991)。
注意力機(jī)制一出來(lái),人們很自然就想到將其可視化用做解釋工具。注意力的可視化工作包括:NMT(Bahdanau等人,2014),NLI(Rockt?schel等人,2016; Yin等人,2016),摘要(Rush等人,2015),機(jī)器翻譯的后編輯(Jauregi Unanue等人, 2018)等。
計(jì)算各種顯著性度量(saliency mearures)以將預(yù)測(cè)歸因于輸入要素,然后可以在選定的示例中可視化重要或顯著特征(Li等人,2016a; Aubakirova和Bansal,2016; Sundararajan等人,2017; Arras等人,2017a,b; Ding等人,2017; Murdoch等人,2018; Mudrakarta等人,2018; Montavon等人,2018; Godin等人,2018)。顯著性也可以針對(duì)中間值而不是輸入特征進(jìn)行計(jì)算(Ghaeini等人,2018)。
下圖是NMT的attention可視化工作的一個(gè)實(shí)例。說(shuō)到注意力可視化,我讀到有工作(《Attention Interpretability Across NLP Tasks》)對(duì)比了不同任務(wù)的attention weights,得出一個(gè)有趣的結(jié)論:在single sentence任務(wù)(如句子分類)的attention可解釋性不好,而在sentence-pair任務(wù)(如翻譯和推理)上attention是有效的機(jī)制,其可解釋性也和模型效果正相關(guān)。
一種有啟發(fā)性的可視化技術(shù)是對(duì)神經(jīng)網(wǎng)絡(luò)激活進(jìn)行聚類,并將它們與某種語(yǔ)言特性進(jìn)行比較。早期的工作將RNN激活聚集在一起,表明它們按詞匯類別進(jìn)行組織(Elman,1989,1990)。其他人也遵循了類似的技術(shù)。
同時(shí)本領(lǐng)域也出現(xiàn)了一些用于可視化神經(jīng)網(wǎng)絡(luò)的在線工具:
LSTMVis(Strobelt等人,2018b)可視化RNN激活,重點(diǎn)是跟蹤隱藏狀態(tài)動(dòng)態(tài)。
Seq2Seq-Vis(Strobelt等,2018a)可視化基于注意力的seq2seq模型中的不同模塊,目的是檢查模型決策和測(cè)試替代決策。
Rikters(2018)提出了另一個(gè)專注于比較注意力比對(duì)的工具。它還根據(jù)注意權(quán)重的分布提供翻譯置信度評(píng)分。
NeuroX(Dalvi等,2019b)是一種用于發(fā)現(xiàn)和分析單個(gè)神經(jīng)元的工具,專注于機(jī)器翻譯。
評(píng)估方式
如同在可解釋性方面的許多工作中一樣,評(píng)估可視化質(zhì)量非常困難,并且通常僅限于定性示例。
Singh等(2018)展示了人類通過(guò)兩種解釋方法生成的輸入詞的層次聚類,并要求他們?cè)u(píng)估哪種方法更準(zhǔn)確,或者他們更信任哪種方法。其他人報(bào)告了在對(duì)話建模(Freeman等人,2018)和醫(yī)療代碼預(yù)測(cè)任務(wù)(Mullenbach等人,2018)中對(duì)注意力可視化進(jìn)行的人類評(píng)估。
上述開(kāi)放源代碼工具的可用性有望鼓勵(lì)用戶在其常規(guī)研發(fā)周期中利用可視化。然而其可視化效果如何仍有待觀察。
3. 挑戰(zhàn)集
NLP中的大多數(shù)基準(zhǔn)數(shù)據(jù)集均來(lái)自文本語(yǔ)料庫(kù),反映了語(yǔ)言現(xiàn)象的自然頻率分布。盡管在實(shí)踐中對(duì)于平均情況下評(píng)估系統(tǒng)性能很有用,但此類數(shù)據(jù)集可能無(wú)法捕獲更廣泛的現(xiàn)象。
另一種評(píng)估框架由挑戰(zhàn)集構(gòu)成,也稱為測(cè)試套件(test suites),已經(jīng)在NLP中使用了很長(zhǎng)時(shí)間(Lehmann等,1996),尤其是評(píng)估機(jī)器翻譯系統(tǒng)(King和Falkedal,1990;Isahara,1995;Koh等,2001)。
Lehmann等(1996年)指出了測(cè)試套件的幾個(gè)關(guān)鍵特性:系統(tǒng)性,對(duì)數(shù)據(jù)的控制,否定數(shù)據(jù)的包含以及窮舉性。
這一領(lǐng)域因?yàn)榻y(tǒng)計(jì)NLP系統(tǒng)的大規(guī)模量化評(píng)估方法的流行而沉寂了一段時(shí)間。
挑戰(zhàn)數(shù)據(jù)集可以按照任務(wù),語(yǔ)言現(xiàn)象,語(yǔ)言,規(guī)模,構(gòu)造方法,以及評(píng)估方法等標(biāo)準(zhǔn)進(jìn)行分類,如下表:
按任務(wù)分類
挑戰(zhàn)集中針對(duì)最多的任務(wù)是自然語(yǔ)言推斷(NLI)和機(jī)器翻譯(MT):一方面這些任務(wù)的模型多,另一方面這些任務(wù)涉及各種語(yǔ)言水平;而其他一些高級(jí)任務(wù)(如閱讀理解或問(wèn)題解答)并未得到足夠的重視,它們也可能從精心設(shè)計(jì)的挑戰(zhàn)集中獲益。
挑戰(zhàn)集主要的工作旨在通過(guò)將嵌入模型在單詞或句子對(duì)上計(jì)算的相似性,與人類相似性判斷相關(guān)聯(lián),來(lái)評(píng)估嵌入模型的質(zhì)量。
包含此類相似性評(píng)分的數(shù)據(jù)集通常用于評(píng)估單詞嵌入(Finkelstein等,2002;Bruni等,2012;Hill等,2015)或句子嵌入,這些數(shù)據(jù)集中有許多在粗糙的級(jí)別上評(píng)估相似性。還有一些數(shù)據(jù)集提供了更細(xì)粒度的評(píng)估:例如,一些數(shù)據(jù)集專用于特定詞類,如動(dòng)詞(Gerz等,2016)或稀有詞(Luong等,2013),或評(píng)估句子嵌入中的成分知識(shí)(Marelli等,2014)等;還有數(shù)據(jù)集收集了多語(yǔ)言和跨語(yǔ)言版本(Leviant和Reichart,2015年; Cer等人,2017年)。
盡管這些數(shù)據(jù)集被廣泛使用,但這種評(píng)估由于其主觀性以及與下游績(jī)效的可疑相關(guān)性而受到批評(píng)(Faruqui et al,2016)。
按語(yǔ)言現(xiàn)象分類
挑戰(zhàn)集的主要目標(biāo)之一是評(píng)估模型處理特定語(yǔ)言現(xiàn)象的能力。
早期的研究強(qiáng)調(diào)窮舉性(Cooper等,1996;Lehmann等,1996),而最近的研究則傾向于關(guān)注一些感興趣的特性:例如,Sennrich(2017)為MT評(píng)估引入了一個(gè)挑戰(zhàn)集,該挑戰(zhàn)集著重于5個(gè)屬性:主語(yǔ)一致,名詞短語(yǔ)一致,動(dòng)詞結(jié)構(gòu),極性和音譯。對(duì)形態(tài)學(xué)的MT挑戰(zhàn)集略為詳細(xì)闡述,包括14種形態(tài)學(xué)特征(Burlot和Yvon,2017年)。其他挑戰(zhàn)集涵蓋了更多種語(yǔ)言屬性:例如,在Cooper等人中擴(kuò)展類別(1996年),針對(duì)NLI的GLUE分析集涵蓋了四個(gè)粗略類別(詞匯語(yǔ)義,謂語(yǔ)-自變量結(jié)構(gòu),邏輯和知識(shí))中的30多種現(xiàn)象。在MT評(píng)估中,Burchardt等人(2017)使用覆蓋120種現(xiàn)象的大型測(cè)試套件報(bào)告了結(jié)果,部分基于Lehmann等(1996),Isabelle等(2017)和Isabelle and Kuhn(2018)為MT評(píng)估準(zhǔn)備了挑戰(zhàn)集,涵蓋了詞素句法,句法和詞法層面的細(xì)粒度現(xiàn)象。
通常,以編程方式構(gòu)建的數(shù)據(jù)集傾向于涵蓋較少的細(xì)粒度語(yǔ)言屬性,而手動(dòng)構(gòu)建的數(shù)據(jù)集則表示更多種現(xiàn)象。
按語(yǔ)言分類
不幸的是,在許多NLP工作中,大多數(shù)挑戰(zhàn)集都是英語(yǔ)。這種情況在MT評(píng)估中要好一些,因?yàn)樽匀欢凰袛?shù)據(jù)集都具有其他語(yǔ)言。顯然,非英語(yǔ)語(yǔ)言在MT任務(wù)還有更多的發(fā)展空間。但是,也許在其他任務(wù)上更迫切的需要大型非英語(yǔ)數(shù)據(jù)集來(lái)開(kāi)發(fā)流行的NLP任務(wù)的神經(jīng)模型。
按規(guī)模分類
現(xiàn)有的挑戰(zhàn)集的大小差異很大:手工構(gòu)建的數(shù)據(jù)集較小,典型大小為數(shù)百個(gè),少見(jiàn)上萬(wàn);自動(dòng)構(gòu)建的數(shù)據(jù)集要大得多,范圍從數(shù)千到近十萬(wàn)(Sennrich,2017),甚至超過(guò)一百萬(wàn)個(gè)樣本(Linzen等人,2016)。在后一種情況下,作者認(rèn)為需要如此大的測(cè)試集才能獲得足夠的罕見(jiàn)情況表示。
按構(gòu)造方法分類
挑戰(zhàn)集一般要么由編程方式創(chuàng)建,要么通過(guò)手工制作特定示例以手動(dòng)創(chuàng)建。
通常,半自動(dòng)方法用于編譯示例的初始列表,這些示例由注釋者手動(dòng)驗(yàn)證。具體方法還影響語(yǔ)言使用的種類以及示例的自然性或人工/綜合性。目前主流方案如下:
通過(guò)修改或從現(xiàn)有數(shù)據(jù)集中提取示例來(lái)構(gòu)造數(shù)據(jù)集。例如,Sanchez等(2018)和Glockner等人(2018年)從SNLI中提取了示例(Bowman等人,2015年),并替換了特定詞(如上位詞,同義詞和反義詞),然后進(jìn)行了手動(dòng)驗(yàn)證。Linzen等(2016)使用啟發(fā)式方法從原始文本中提取了主語(yǔ)-動(dòng)詞一致的示例,從而形成了一個(gè)大型數(shù)據(jù)集。Gulordava等(2018)將其擴(kuò)展到其他協(xié)議現(xiàn)象,但他們依賴于樹(shù)庫(kù)中可用的句法信息,從而導(dǎo)致數(shù)據(jù)集更小。
一些挑戰(zhàn)集利用現(xiàn)有的測(cè)試套件作為示例的直接來(lái)源(Burchardt等,2017)或搜索相似的自然存在的示例(Wang等,2018a)。
Sennrich(2017)引入了一種通過(guò)對(duì)比翻譯對(duì)評(píng)估NMT系統(tǒng)的方法,模型估計(jì)反映特定語(yǔ)言特性的兩種候選翻譯的概率。Sennrich通過(guò)應(yīng)用簡(jiǎn)單的試探法(例如更改性別和數(shù)字以引起前后不一致)以編程方式生成了此類對(duì),從而得到了接近10萬(wàn)個(gè)示例的大規(guī)模挑戰(zhàn)集。作者擴(kuò)展了該框架以評(píng)估其他屬性,但通常需要更復(fù)雜的生成方法,例如使用形態(tài)分析儀/生成器(Burlot和Yvon,2017)或更多人工參與生成(Bawden等,2018)或驗(yàn)證(Rios Gonzales等,2017)。
最后,一些研究定義了模板用于捕獲了某些語(yǔ)言屬性并使用單詞列表將其實(shí)例化(Dasgupta等,2018;Rudinger等,2018;Zhao等,2018a)。基于模板的生成具有提供更多控制(例如用于獲得特定詞匯分布)的優(yōu)勢(shì),但這是以犧牲示例的自然程度為代價(jià)的。
按評(píng)估方式分類
通常,評(píng)估模型用其在挑戰(zhàn)集示例上的性能來(lái)評(píng)估,要么使用與第一階段用于評(píng)估系統(tǒng)相同的度量標(biāo)準(zhǔn),要么通過(guò)代理進(jìn)行評(píng)估,如Sennrich(2017)的對(duì)比對(duì)評(píng)估中那樣。
自動(dòng)評(píng)估指標(biāo)的代價(jià)較低,可以大規(guī)模計(jì)算。但是,可能會(huì)缺少某些方面的效果。因此,一些研究報(bào)告了人類對(duì)其挑戰(zhàn)集的評(píng)估,例如在MT中(Isabelle等,2017; Burchardt等,2017)。
此外,根據(jù)模型在挑戰(zhàn)集上的表現(xiàn)來(lái)判斷模型的質(zhì)量可能很棘手。一些作者強(qiáng)調(diào),他們希望在“超出正常運(yùn)行能力”的極端或困難情況下測(cè)試系統(tǒng)(Naik等人,2018)。但是,是否應(yīng)該期望系統(tǒng)在特殊選擇的情況下(相對(duì)于一般情況)表現(xiàn)良好,可能取決于目標(biāo):為了更好地看待結(jié)果,可以將同一任務(wù)的模型績(jī)效與人類績(jī)效進(jìn)行比較(Gulordava等人,2018)。
4. 對(duì)抗樣本
要了解模型,還需要了解其失敗。盡管機(jī)器學(xué)習(xí)系統(tǒng)在許多任務(wù)上都取得了成功,但它們也對(duì)惡意攻擊或?qū)剐允纠浅C舾?#xff08;Szegedy等,2014;Goodfellow等,2015)。在視覺(jué)領(lǐng)域,即使人類無(wú)法分辨輸入圖像的微小變化,也可能導(dǎo)致分類錯(cuò)誤。
對(duì)抗樣本的目標(biāo)在于,對(duì)給定的模型 f 和輸入樣本 x,找到樣本 x',它被模型預(yù)測(cè)為不同的類別,同時(shí)保持和原始樣本具有最小的距離:
在CV領(lǐng)域,樣本改變通常是圖像像素,計(jì)算兩個(gè)圖片向量的差值很簡(jiǎn)單,因?yàn)閿?shù)值連續(xù)所以可以通過(guò)計(jì)算相對(duì)輸入的梯度來(lái)計(jì)算得到改變后的樣本。
在NLP領(lǐng)域,輸入是離散的(例如單詞序列),這帶來(lái)了兩個(gè)問(wèn)題:
如何測(cè)量原始示例和對(duì)抗示例 x 和 x' 之間的距離?
如何將最小化這個(gè)距離表述為優(yōu)化問(wèn)題?(因?yàn)檫@需要計(jì)算改變相對(duì)于離散輸入的梯度)
本文按照對(duì)抗是否可以已知模型、攻擊的目的性、修改單位、攻擊的任務(wù)對(duì)對(duì)抗方法進(jìn)行分類,如下表:
按對(duì)抗是否已知模型分類
對(duì)抗模型可以通過(guò)訪問(wèn)模型參數(shù)(也稱為白盒攻擊)來(lái)生成對(duì)抗性示例,也可以通過(guò)使用黑盒攻擊來(lái)獲得對(duì)抗性示例(Papernot等,2016a,2017;Narodytska and Kasiviswanathan,2017;Liu等,2017) 。
白盒攻擊很難適應(yīng)文本世界,因?yàn)樗鼈兺ǔP枰獙?duì)輸入計(jì)算梯度,在文本情況下可能是離散的。包括如下方法:
對(duì)輸入詞的嵌入計(jì)算梯度,并擾動(dòng)嵌入。由于這可能會(huì)導(dǎo)致一個(gè)不對(duì)應(yīng)任何單詞的向量,因此人們可以搜索嵌入給定詞典中的最近鄰單詞(Papernot等人,2016b);Cheng等(2018)將這個(gè)想法擴(kuò)展到seq2seq模型。
對(duì)輸入詞的嵌入計(jì)算梯度,以識(shí)別和排序要修改的詞(Samanta和Mehta,2017;Liang等,2018)。Ebrahimi等(2018b)開(kāi)發(fā)了一種替代方法,該方法通過(guò)在向量空間中表示文本編輯操作(例如,一個(gè)二進(jìn)制向量來(lái)指定單詞中的哪些字符將被更改),并沿著該向量用導(dǎo)數(shù)來(lái)近似損失的變化。
考慮到為文本生成白盒對(duì)抗性示例的困難性,許多研究都致力于黑盒示例。主要工作如下:
受文本編輯啟發(fā)(自然的或由人類普遍產(chǎn)生的,例如錯(cuò)別字,拼寫(xiě)錯(cuò)誤等)(Sakaguchi等人,2017;Heigold等人,2018;Belinkov和Bisk,2018)。Gao等(2018)定義了評(píng)分函數(shù)以識(shí)別要修改的詞語(yǔ)。函數(shù)不需要訪問(wèn)模型內(nèi)部,但是需要模型預(yù)測(cè)分?jǐn)?shù)。在識(shí)別了重要標(biāo)記之后,它們使用常見(jiàn)的編輯操作來(lái)修改字符。
Zhao等(2018c)使用生成對(duì)抗網(wǎng)絡(luò)(GAN)(Goodfellow et al,2014)來(lái)最小化輸入的潛在表示和對(duì)抗性示例之間的距離,并在潛在空間中進(jìn)行擾動(dòng)。由于潛在表示不需要來(lái)自受攻擊的模型,因此這是黑盒攻擊。
Alzantot等(2018年)開(kāi)發(fā)了一種有趣的基于人口的遺傳算法,可通過(guò)保留原始句子的修飾語(yǔ)群體并評(píng)估每一代的修飾語(yǔ)適合度來(lái)制作文本分類的對(duì)抗性示例。他們不需要訪問(wèn)模型參數(shù),但是會(huì)使用預(yù)測(cè)分?jǐn)?shù)。Kuleshov等人提出了類似的想法(2018)。
按攻擊的目的性分類
對(duì)抗性攻擊可以分為定向攻擊和非定向攻擊(Yuan等人,2017)。
其中,定向攻擊指定了特定的錯(cuò)誤類別 ,而非目標(biāo)攻擊僅關(guān)心預(yù)測(cè)的類別是錯(cuò)誤的, 。定向攻擊很難生成,因?yàn)樗鼈兺ǔP枰私饽P蛥?shù),即,它們是白盒攻擊。大多數(shù)對(duì)抗示例都是非針對(duì)性的,而一些針對(duì)性的攻擊包括Liang等 (2018a)和Chen等(2018a),后者指定了在圖像字幕模型中生成的單詞或字幕。其他定向攻擊模型則在攻擊seq2seq模型時(shí)將特定單詞指定為省略,替換或包含(Cheng等人,2018; Ebrahimi等人,2018a)。
在NLP中產(chǎn)生定向攻擊的方法可能會(huì)從其他領(lǐng)域的對(duì)抗性攻擊中獲得更多啟發(fā)。例如,在攻擊惡意軟件檢測(cè)系統(tǒng)中,多項(xiàng)研究在黑盒情況下開(kāi)發(fā)了針對(duì)性攻擊(Yuan等人,2017)。Zhao等人提出了針對(duì)MT的黑匣子針對(duì)性攻擊(2018c),他使用對(duì)抗性正則化自動(dòng)編碼器將句子映射到連續(xù)空間后,使用GAN來(lái)搜索對(duì)Google MT系統(tǒng)的攻擊(Zhao等人,2018b)。
按修改的單位分類
對(duì)抗文本示例的大部分工作都涉及字符和/或單詞級(jí)別的修改,其他轉(zhuǎn)換包括添加句子或文本塊(Jia and Liang,2017)或生成具有所需句法結(jié)構(gòu)的復(fù)述(Iyyer等人,2018)。在圖像字幕中,Chen等人(2018a)在輸入圖像中修改像素以對(duì)字幕文本產(chǎn)生針對(duì)性的攻擊。
按對(duì)抗任務(wù)分類
通常,大多數(shù)在NLP中對(duì)抗示例的工作都集中在相對(duì)高級(jí)的語(yǔ)言理解任務(wù)上,例如文本分類(包括情感分析)和閱讀理解,而文本生成的工作主要集中在MT。
除了形態(tài)標(biāo)記(Heigold等人,2018)和拼寫(xiě)校正(Sakaguchi等人,2017)等少數(shù)工作,對(duì)抗樣本卻很少針對(duì)更底層的語(yǔ)言處理任務(wù)。
對(duì)抗樣本的連貫性和改變量的評(píng)估方式
在對(duì)抗圖像樣本中,通過(guò)測(cè)量像素空間中的距離來(lái)測(cè)量擾動(dòng)是相當(dāng)簡(jiǎn)單的,可以使用某些正則化方法,或采用與人類感知更好相關(guān)的替代措施(Rozsa等,2016)。呈現(xiàn)對(duì)抗圖像與源圖像之間沒(méi)有明顯差異的視覺(jué)效果也令人信服。
而在文本域中,距離的測(cè)量不是那么簡(jiǎn)單,人類甚至可以感覺(jué)到文本的很小變化。因此,對(duì)攻擊的評(píng)估相當(dāng)棘手。一些研究對(duì)對(duì)抗樣本施加了限制,使其具有少量的編輯操作(Gao等人,2018)。其他人則以不同的方式確保句法或語(yǔ)義上的連貫性,例如通過(guò)單詞相似性或句子相似性過(guò)濾替換(Alzantot等人,2018;Kuleshov等人,2018),或使用同義詞和其他單詞表(Samanta和Mehta,2017;Yang等,2018)。
一些人報(bào)告了人類是否可以正確地將對(duì)抗性示例分類(Yang等人,2018),但這并未表明變化的可感知性。更多信息豐富的人研究評(píng)估了對(duì)抗性示例與原始示例的語(yǔ)法相似性或相似性(Zhao等人,2018c;Alzantot等人,2018)。考慮到在文本中產(chǎn)生難以察覺(jué)的變化的固有困難,需要更多這樣的評(píng)估。
5. 解釋模型預(yù)測(cè)
這一部分是關(guān)于Explainability,和Interpretability有些微妙的區(qū)別。
解釋特定的預(yù)測(cè)被認(rèn)為是可解釋工作的一個(gè)迫切的痛點(diǎn)(Lipton,2016年),它被認(rèn)為增加了機(jī)器學(xué)習(xí)系統(tǒng)的可靠性(Doshi-Velez等人,2017年)。但是,解釋為什么深度非常深,高度非線性的神經(jīng)網(wǎng)絡(luò)做出一定的預(yù)測(cè)并非易事。
一種解決方案是要求模型生成與主要預(yù)測(cè)一起的解釋(Zaidan等,2007;Zhang等,2016),但是這種方法需要人工注釋解釋,這可能很難收集。
一種替代方法是使用部分輸入作為解釋。例如,Lei等(2016)定義了一個(gè)生成器,該生成器學(xué)習(xí)文本片段上的分布作為證明預(yù)測(cè)的合理依據(jù),并根據(jù)情感分析進(jìn)行評(píng)估。Alvarez-Melis和Jaakkola(2017)通過(guò)擾動(dòng)輸入并找到最相關(guān)的關(guān)聯(lián),在序列到序列的學(xué)習(xí)場(chǎng)景中發(fā)現(xiàn)了輸入-輸出關(guān)聯(lián)。Gupta和Schütze(2018)研究了如何在RNN中積累信息以進(jìn)行預(yù)測(cè),以及預(yù)測(cè)分?jǐn)?shù)與重要輸入段的關(guān)聯(lián)峰值。
由于這些方法使用輸入段來(lái)解釋預(yù)測(cè),因此它們對(duì)網(wǎng)絡(luò)中發(fā)生的內(nèi)部計(jì)算沒(méi)有太大的啟發(fā)。
目前,盡管這一塊工作對(duì)可解釋領(lǐng)域整體具有公認(rèn)的重要性,我們?cè)贜LP中解釋神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)的能力仍然有限。
6. 其他研究
這里包含一些雜項(xiàng)。
擦除或者隱藏部分神經(jīng)網(wǎng)絡(luò)組件(例如詞嵌入的部分維度,隱層單元,甚至整個(gè)詞)的效果對(duì)比實(shí)驗(yàn)(Li等人,2016b; Feng等人,2018; Khandelwal等人,2018 ; Bau等人,2018)。Li等(2016b)消除了單詞嵌入或隱藏狀態(tài)下的特定維度,并計(jì)算了分配給不同標(biāo)簽的概率的變化。他們的實(shí)驗(yàn)揭示了詞嵌入模型之間的有趣差異,在某些模型中,信息更多地集中在部分維度上。他們還發(fā)現(xiàn),信息在隱藏層中的分布比在輸入層中的分布多,并且在情感分析任務(wù)中刪除了整個(gè)單詞以找到那些重要的單詞。
通過(guò)定義插入任務(wù)來(lái)解釋詞嵌入,其中人類需要根據(jù)詞嵌入維度的差異來(lái)選擇插入詞(Murphy等人,2012; Fyshe等人,2015; Faruqui等人,2015)。在這種工作中,如果人類能夠更好地識(shí)別出插入詞,那么詞嵌入模型可能被認(rèn)為更具解釋性。由于高維表示的評(píng)估成本高昂,因此考慮了其他自動(dòng)評(píng)估方式(Park等人,2017;Senel等人,2018)。
關(guān)于神經(jīng)網(wǎng)絡(luò)的一項(xiàng)悠久傳統(tǒng)是評(píng)估和分析其學(xué)習(xí)不同形式語(yǔ)言的能力(Das等,1992; Casey,1996; Gers和Schmidhuber,2001;Bodén和Wiles,2002; Chalup和Blair,2003)。。這種趨勢(shì)一直持續(xù)到今天,包括對(duì)現(xiàn)代結(jié)構(gòu)及其可學(xué)習(xí)的形式語(yǔ)言的研究(Weiss等人,2018; Bernardy,2018; Suzgun等人,2019),或它們擁有的形式屬性(Chen等人,2018b)。
結(jié)論
分析神經(jīng)網(wǎng)絡(luò)已成為NLP研究的熱門(mén)話題。我們已經(jīng)強(qiáng)調(diào)了特定于語(yǔ)言的分析方面:
在神經(jīng)網(wǎng)絡(luò)中捕獲了哪些語(yǔ)言信息,它們成功捕獲了哪些現(xiàn)象以及在哪里失敗了。
許多分析方法是大型機(jī)器學(xué)習(xí)社區(qū)的通用技術(shù),例如通過(guò)顯著性度量進(jìn)行可視化或通過(guò)對(duì)抗性示例進(jìn)行評(píng)估;但是即使是那些有時(shí)也需要非凡的改編才能與文本輸入一起使用。
一些方法更特定于該領(lǐng)域,但在其他領(lǐng)域可能被證明是有用的。挑戰(zhàn)集或測(cè)試套件就是這種情況。
在整個(gè)調(diào)查過(guò)程中,我們確定了當(dāng)前分析工作中的一些局限性或不足之處:
使用輔助分類任務(wù)來(lái)識(shí)別神經(jīng)網(wǎng)絡(luò)捕獲的語(yǔ)言屬性已成為標(biāo)準(zhǔn)做法,但是缺乏其與原始任務(wù)之間聯(lián)系的理論基礎(chǔ),和更好的經(jīng)驗(yàn)性考慮。
分析工作的評(píng)估通常是有限的或定性的,尤其是在可視化技術(shù)方面。為了確定不同方法的成功,需要更新的評(píng)估形式。
除了提供可視化之外,在解釋神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)方面所做的工作相對(duì)較少。隨著公眾對(duì)解釋機(jī)器學(xué)習(xí)系統(tǒng)中算法選擇的需求不斷增加(Doshi-Velez和Kim,2017年; Doshi-Velez等人,2017年),迫切需要在這一方向上取得進(jìn)展。
大多數(shù)分析工作都集中在英語(yǔ)上,特別是在為各種任務(wù)構(gòu)建挑戰(zhàn)集時(shí),但MT由于其固有的多語(yǔ)言特性而除外。隨著領(lǐng)域的發(fā)展和成熟,開(kāi)發(fā)其他語(yǔ)言的資源和評(píng)估方法很重要。
除NLI和MT外,還需要更多挑戰(zhàn)集來(lái)評(píng)估其他任務(wù)。
?
?
OpenKG
開(kāi)放知識(shí)圖譜(簡(jiǎn)稱 OpenKG)旨在促進(jìn)中文知識(shí)圖譜數(shù)據(jù)的開(kāi)放與互聯(lián),促進(jìn)知識(shí)圖譜和語(yǔ)義技術(shù)的普及和廣泛應(yīng)用。
點(diǎn)擊閱讀原文,進(jìn)入 OpenKG 博客。
總結(jié)
以上是生活随笔為你收集整理的论文浅尝 | 一日看尽长安花--NLP可解释研究梳理的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 论文浅尝 - AAAI2021 | 从历
- 下一篇: 项目架构之传统三层架构和领域模型三层架构