论NLP可解释的评估:什么才是“好”的解释?
?PaperWeekly 原創(chuàng) ·?作者|李濼秋
學(xué)校|浙江大學(xué)碩士生
研究方向|自然語(yǔ)言處理、知識(shí)圖譜
前言
深度學(xué)習(xí)模型已經(jīng)成為 NLP 的標(biāo)準(zhǔn)工具,在解決許多問(wèn)題上大顯神通。然而其黑盒性質(zhì)也成為一大問(wèn)題,對(duì)系統(tǒng)的可控性、可信任度都造成影響。在醫(yī)療、金融等領(lǐng)域,對(duì)模型可解釋的需求都日益增加。
目前,NLP 的可解釋領(lǐng)域中已經(jīng)有了不少工作,比如:
基于 probing task 測(cè)試模型的語(yǔ)義理解能力
從模型的 embedding、activation、attention 到 saliency 的可視化分析
構(gòu)造特定語(yǔ)言現(xiàn)象的 challenge set 作某種方面質(zhì)量評(píng)估的
用各種啟發(fā)式方法生成 adversarial sample 分析模型魯棒性的
生成模型預(yù)測(cè)的自然語(yǔ)言解釋文本(NL Explanation Generation)
尋找簡(jiǎn)單的替代模型,或者將模型的局部分類面簡(jiǎn)化(LIME 等)
……
等等。以上每一條線都有許多不同的工作,感興趣的讀者可以從這篇概述入手了解。
但是或許我們需要先回答一個(gè)更加基本,也更核心的問(wèn)題:
如何評(píng)估解釋的好壞?
如果沒有一個(gè)直接的、統(tǒng)一的標(biāo)準(zhǔn),又有什么制定標(biāo)準(zhǔn)的原則可以是值得參考和遵守的?
據(jù)個(gè)人目前了解,還沒有工作提出一個(gè)能說(shuō)服大部分人的解釋的標(biāo)準(zhǔn)——或者只能定性而非定量分析(例如可視化方法),或者很大程度基于主觀認(rèn)識(shí)(例如 contrast set,或者和人工標(biāo)注進(jìn)行對(duì)比等),或者不能從根本上說(shuō)明問(wèn)題(例如對(duì)抗方法),有的甚至沒有辦法和其他方法進(jìn)行比較孰優(yōu)孰劣…… 說(shuō)白了,所有人都像是在摸著石頭過(guò)河。
但是,如果不將這一問(wèn)題說(shuō)明白,建立共識(shí)性的認(rèn)知,那么可以說(shuō)所有的解釋工具都只是自說(shuō)自話,解釋也將和深度學(xué)習(xí)本身一樣化為“玄學(xué)”(甚至比玄學(xué)更玄,因?yàn)槲覀兩踔敛恢滥繕?biāo)在哪里),再多 fancy 的 technique 也只會(huì)使我們離真實(shí)越來(lái)越遠(yuǎn)。
而這也正是目前大家所關(guān)心和糾結(jié)的問(wèn)題:
https://www.zhihu.com/question/341190239
于是,本文將解讀一篇發(fā)表在 ACL 2020 的綜述文章 Towards Faithfully Interpretable NLP Systems: How Should We De?ne and Evaluate Faithfulness?,分享其中關(guān)于可解釋評(píng)估的一些現(xiàn)狀分析和思考。(當(dāng)然,或許僅憑借這一篇文章也無(wú)法給出正確的結(jié)論,但是至少它可以提供了一些討論的基礎(chǔ))
為了節(jié)約大家時(shí)間,先把文章的結(jié)論放在這里,可以快速跳到相關(guān)的內(nèi)容:
1. 可解釋的評(píng)估包含似然性和忠實(shí)性的評(píng)估,而人的參與只會(huì)把評(píng)估變?yōu)樗迫恍栽u(píng)估,對(duì)證明模型具有真正的可解釋能力——即忠實(shí)性方面毫無(wú)用處。
2. 忠實(shí)性的評(píng)估可以分為三個(gè)基本的原則假設(shè),即模型假設(shè)、預(yù)測(cè)假設(shè)和線性假設(shè)(關(guān)于具體假設(shè)的內(nèi)容請(qǐng)見下文)。
3. 忠實(shí)性不應(yīng)該是一個(gè)“是”或“否”的評(píng)估,不然完全忠實(shí)的模型如同真空中的球形雞,是不存在的。我們應(yīng)該在更細(xì)微的“灰度”上評(píng)估忠實(shí)度,即使這些解釋不具有全局性和明確的忠實(shí)性,也可以使解釋有用。
NLP可解釋領(lǐng)域現(xiàn)存的問(wèn)題
1. 當(dāng)前的解釋方法受實(shí)際用例和應(yīng)用程序的啟發(fā),以非常特殊性(而非普遍性)的方式定義解釋。但是,這種視角通常無(wú)法區(qū)分解釋質(zhì)量的各個(gè)方面,例如可讀性(readability),似然性(plausibility)和忠實(shí)性(faithfulness——Herman,2017 年)。
2. 此外,盡管很多工作可能會(huì)隱式或顯式地評(píng)估對(duì)特定解釋技術(shù)的忠誠(chéng)度,但對(duì)忠誠(chéng)度并沒有統(tǒng)一和正式的定義。
3. 最后,當(dāng)下還有一種趨勢(shì):將忠實(shí)性視為二元屬性,然后說(shuō)明解釋方法不忠實(shí)。本文認(rèn)為這是徒勞的——幾乎不可能完全滿足這些假設(shè),并且通過(guò)反例來(lái)證明一種解釋方法的真實(shí)性也太容易了。
針對(duì)以上內(nèi)容,本文的貢獻(xiàn)可以總結(jié)如下:
對(duì)于第 1 點(diǎn)和第 2 點(diǎn),本文對(duì)忠實(shí)性作出了定義:和似然性無(wú)關(guān),忠實(shí)的解釋可以準(zhǔn)確地表示模型預(yù)測(cè)背后的推理過(guò)程。并且本文認(rèn)為,在要求解釋如實(shí)的情況下,不完善或誤導(dǎo)性的評(píng)估可能會(huì)造成災(zāi)難性的影響。
本文通過(guò)明確所有可解釋的嘗試背后的三個(gè)假設(shè),將看似不同的評(píng)估方法串聯(lián)起來(lái),并提供了有關(guān)忠實(shí)的理想屬性的討論基礎(chǔ)。
對(duì)于第 3 點(diǎn),本文主張?jiān)趯?shí)踐中對(duì)忠誠(chéng)度有更實(shí)際的看法,采用分級(jí)標(biāo)準(zhǔn)來(lái)衡量一種解釋在實(shí)踐中是否忠實(shí)的程度和可能性。對(duì)于某個(gè)特定領(lǐng)域,如何構(gòu)建這些標(biāo)準(zhǔn)的確切形式以及設(shè)計(jì)針對(duì)性的具體評(píng)估方法,是未來(lái)工作的主要挑戰(zhàn)。
以下將詳細(xì)說(shuō)明。
區(qū)分忠實(shí)性與似然性
似然性(plausibility)和忠實(shí)性(faithfulness)是兩個(gè)特別值得注意的標(biāo)準(zhǔn):似然性是指對(duì)人類的解釋令人信服,而“忠誠(chéng)”則是指它能準(zhǔn)確反映模型的真實(shí)推理過(guò)程(Herman,2017;Wiegreffe and Pinter,2019)。
此處參考文獻(xiàn):
arxiv 2017,《The promise and peril of human evaluation for model interpretability》EMNLP 2019,《Attention is not not explanation》
如果只考慮符合其中一個(gè)性質(zhì),這是很容易做到的。例如,考慮通過(guò)事后(post-hoc,即模型預(yù)測(cè)后)文本生成進(jìn)行解釋的情況,其中一個(gè)額外的“生成器”組件輸出模型決策的文本說(shuō)明,并在用文本解釋作為監(jiān)督信號(hào)的情況下學(xué)習(xí)生成器(Zaidan 和 Eisner,2008;Rajani 等,2019;Strout 等,2019)。在這種情況下,似然性是主要屬性,而不能滿足忠實(shí)性。
盡管這兩個(gè)標(biāo)準(zhǔn)之間存在差異,但許多作者并沒有明確區(qū)分,有時(shí)甚至將兩者混為一談:
NIPS 2017,《A uni?ed approach to interpreting model predictions》
arxiv 2018,《Evaluating neural network explanation methods using hybrid documents and morphological prediction》
arxiv 2018,《Faithful multimodal explanation for visual question answering》
而且,即使明顯屬于某個(gè)陣營(yíng),大多數(shù)工作也沒有明確列出要考慮的標(biāo)準(zhǔn):
arxiv 2018,《A humangrounded evaluation benchmark for local explanations of machine learning》
arxiv 2016,《”what is relevant in a text document?”: An interpretable machine learning approach》
arxiv 2018,《Looking deeper into deep learning model: Attribution-based explanations of textcnn》
arxiv 2019,《A human-grounded evaluation of SHAP for alert processing》
我們認(rèn)為這一混淆很危險(xiǎn),缺乏明確的主張可能會(huì)給該技術(shù)的潛在用戶帶來(lái)錯(cuò)誤的信息,這些用戶不熟悉其內(nèi)部工作原理。因此,必須明確區(qū)分這些術(shù)語(yǔ)。
2019 年 microsoft 的一篇論文《Interpreting interpretability: Understanding data scientists use of interpretability tools for machine learning》指出,盡管沒有保證,即使是專家也傾向于過(guò)于相信解釋的真實(shí)性。
固有的解釋性
通常的解釋性方法分為以下兩類:
通過(guò)事后方式解釋現(xiàn)有模型;
設(shè)計(jì)固有可解釋的(inherently interpretable)模型。?
Rudin(2018)主張使用固有可解釋的模型,該模型在設(shè)計(jì)上聲稱比黑箱模型的事后解釋提供了更多忠實(shí)的解釋(2018 arxiv,《Please stop explaining black box models for high stakes decisions》)。
本文認(rèn)為不能以表面價(jià)值來(lái)論證這一觀點(diǎn):所謂某個(gè)方法“固有地可解釋”是需要驗(yàn)證的主張。確實(shí),雖然注意力機(jī)制被認(rèn)為具有“固有的可解釋性“(Ghaeini 等人,2018; Lee 等人,2017),但最近的工作使人們對(duì)其忠實(shí)性產(chǎn)生懷疑(Serrano 和 Smith,2019; Jain 和 Wallace,2019; Wiegreffe 和 Pinter,2019年)。
這里就不得不提到之前的一篇《The elephant in the interpretability room: Why use attention as explanation when we have saliency methods?》,對(duì)注意力解釋方法的局限性和對(duì)應(yīng)的顯著性方法作出詳細(xì)闡述。可以閱讀以下本人的解讀進(jìn)一步了解:https://zhuanlan.zhihu.com/p/287126616
通過(guò)效用評(píng)估
盡管解釋有許多不同的用例,例如模型調(diào)試,合法保證或?qū)】抵陵P(guān)重要的保證,但另外一個(gè)具有突出評(píng)價(jià)文獻(xiàn)的可能用例是通過(guò)人機(jī)交互(HCI)實(shí)現(xiàn)的自動(dòng)模型的智能用戶界面(IUI)來(lái)協(xié)助人類決策者。在此進(jìn)行解釋的目的是增加用戶與系統(tǒng)之間的信任度,為用戶對(duì)系統(tǒng)的決定是否可能正確提供更多的微妙依據(jù)。
在一般情況下,最終評(píng)估指標(biāo)是用戶在執(zhí)行任務(wù)時(shí)的表現(xiàn)(Abdul 等人,2018)。例如,Feng 和 BoydGraber(2019)在瑣事問(wèn)答環(huán)境中評(píng)估了模型的各種解釋。
此處引用:2018,CHI,《Trends and trajectories for explainable, accountable and intelligible systems: An HCI research agenda.》2019,IUI,《What can ai do for me? evaluating machine learning interpretations in cooperative play.》
但是,在忠實(shí)性的語(yǔ)境下,我們也必須警告拒絕受到基于人機(jī)交互(HCI)的評(píng)估:在這種情況下,提高績(jī)效并不意味著忠實(shí)的指示;相反,它只能表明解釋的似然性與模型的性能之間存在的相關(guān)性。
舉個(gè)例子,假設(shè) HCI 評(píng)估環(huán)境中有一個(gè)不忠實(shí)的解釋系統(tǒng):給出的解釋是文本輸入的熱圖,將分?jǐn)?shù)歸因于各種標(biāo)記。假設(shè)系統(tǒng)說(shuō)明的行為如下:當(dāng)輸出正確時(shí),說(shuō)明由隨機(jī)的內(nèi)容詞組成;當(dāng)輸出不正確時(shí),它由隨機(jī)標(biāo)點(diǎn)符號(hào)組成。
換句話說(shuō),當(dāng)模型正確時(shí),這種解釋更有可能看起來(lái)合理,而同時(shí)又沒有反映模型的真實(shí)決策過(guò)程。使用者通過(guò)更美觀的解釋深信不疑,因此使用該系統(tǒng)的效果更好。但是,這種解釋始終聲稱隨機(jī)標(biāo)記與模型的推理過(guò)程高度相關(guān)。盡管該系統(tǒng)特別有用,但解釋所給出的主張并不能反映模型的決策。
盡管上述情況是極端的,但這種誤解并非完全不可能,因?yàn)榭尚哦扰c模型性能之間的任何程度的相關(guān)性都會(huì)導(dǎo)致用戶性能的提高,而與忠誠(chéng)度的概念無(wú)關(guān)。
這里的分析可以看出,所有基于可視化的方法的評(píng)估都無(wú)法證明解釋的忠實(shí)性。然而,目前幾乎所有的文章都是拿幾個(gè)熱力圖比較一下,感性分析……
忠實(shí)性評(píng)估的幾條指南
破了這么多舊觀念,終于該到立論的部分了——
本文提出以下準(zhǔn)則來(lái)評(píng)估解釋的真實(shí)性。這些指南解決了我們?cè)谖墨I(xiàn)中觀察到的常見陷阱和次優(yōu)實(shí)踐的問(wèn)題。
明確評(píng)估對(duì)象。混用似然性和忠實(shí)性是有害的:應(yīng)該明確評(píng)估其中一個(gè),并針對(duì)每個(gè)評(píng)估使用適當(dāng)?shù)姆椒ā.?dāng)然,在設(shè)計(jì)解釋技術(shù)時(shí)也應(yīng)如此-明確要優(yōu)先考慮的屬性。
忠實(shí)度評(píng)估不應(yīng)包括對(duì)解釋質(zhì)量的判斷。我們注意到:(1)人類無(wú)法判斷一種解釋是否忠實(shí):如果他們理解了模型,那么解釋就沒有必要了;(2)由于類似原因,我們也無(wú)法獲得對(duì)此問(wèn)題的監(jiān)督。因此,人的判斷不應(yīng)參與對(duì)忠誠(chéng)度的評(píng)估,因?yàn)槿说呐袛鄷?huì)衡量似然性。
這似乎是一個(gè)悖論:因?yàn)闊o(wú)法理解模型內(nèi)部發(fā)生的事情,所以需要可解釋方法;但是因?yàn)闊o(wú)法理解模型,我們也難以確定解釋是否忠實(shí)反映了模型內(nèi)部的決策過(guò)程…… 因此,對(duì)于忠實(shí)性最好的評(píng)估還是基于某些客觀指標(biāo)!
忠誠(chéng)度評(píng)估不應(yīng)涉及人為提供的金標(biāo)準(zhǔn)。我們應(yīng)該能夠解釋與正確的模型預(yù)測(cè)相同的錯(cuò)誤模型預(yù)測(cè)。依靠金牌的評(píng)估方法受到人類先驗(yàn)對(duì)模型應(yīng)該做什么的影響,并再次將評(píng)估推向了似然性的方向。
不要相信“固有的可解釋性”主張。除非另有證明,否則固有的可解釋性只是一個(gè)主張而非事實(shí)。“固有可解釋”模型提供的解釋必須遵循與事后解釋方法相同的標(biāo)準(zhǔn),并使用同一套評(píng)估技術(shù)對(duì)其忠誠(chéng)度進(jìn)行評(píng)估。
再次強(qiáng)調(diào):注意力之類的方法只具有似然性,但是其對(duì)模型的工作方式的解釋非常非常非常有限!具體請(qǐng)參考上面的專欄文章。
IUI 系統(tǒng)的忠實(shí)性評(píng)估不應(yīng)依賴于用戶表現(xiàn)。HCI 設(shè)置中的最終任務(wù)用戶性能僅表示似然性與模型性能之間的相關(guān)性,但是這種相關(guān)性很小。盡管評(píng)估某些用例的解釋效用很重要,但它與忠誠(chéng)度無(wú)關(guān)。
定義忠實(shí)性
那么,如何定義解釋方法的忠實(shí)性?
直觀地,我們希望所提供的解釋能夠在做出決策時(shí)反映模型的真實(shí)推理過(guò)程。但是,什么是模型的推理過(guò)程?如何將推理過(guò)程相互比較?
由于缺乏標(biāo)準(zhǔn)定義,不同的工作通過(guò)引入測(cè)試來(lái)衡量他們認(rèn)為良好的解釋應(yīng)該滿足的特性來(lái)評(píng)估他們的方法。其中一些測(cè)試可衡量忠誠(chéng)度的各個(gè)方面。這些臨時(shí)定義通常對(duì)于每篇論文都是唯一的,并且彼此不一致,因此很難找到共同點(diǎn)。
我們發(fā)現(xiàn)了所有這些方法背后的三個(gè)假設(shè),使我們能夠沿標(biāo)準(zhǔn)化軸組織文獻(xiàn),并關(guān)聯(lián)看似不同的工作方式。此外,公開基本假設(shè)可以就其有效性和優(yōu)點(diǎn)進(jìn)行知情的討論(我們或其他人將其留給未來(lái)的工作)。據(jù)我們所知,這些假設(shè)包含了研究界對(duì)忠誠(chéng)度的當(dāng)前有效定義:
假設(shè)1(模型假設(shè)):當(dāng)且僅當(dāng)兩個(gè)模型使用相同的推理過(guò)程時(shí),它們才會(huì)做出相同的預(yù)測(cè)。
推論 1.1:如果解釋系統(tǒng)導(dǎo)致對(duì)做出相同決策的模型進(jìn)行不同的解釋,那么它就是不忠實(shí)的。
這一推論可以用作反示例(counter-example)的證明。從理論上講,如果所有可能完美地模仿模型決策的模型也提供相同的解釋,則可以認(rèn)為它們是忠實(shí)的。相反,表明兩個(gè)模型提供了相同的結(jié)果卻有不同的解釋,則證明了該方法不具有真實(shí)性。
2019,EMNLP,《Attention is not not explanation.》展示了如何通過(guò)對(duì)抗性訓(xùn)練模型推導(dǎo)這些反例,這些模型可以模仿原始模型,但提供不同的解釋,同時(shí)還利用了這一假設(shè)來(lái)表明某些解釋確實(shí)包含有關(guān)模型行為的有用信息。
推論1.2:如果解釋導(dǎo)致的決定與其解釋的模型不同,則它是不忠實(shí)的。
一個(gè)更直接應(yīng)用是通過(guò)保真度(?delity)的概念(Guidotti 等,2018;Lakkaraju 等,2019)。對(duì)于解釋本身就是能夠做出決策的模型的情況(例如決策樹或規(guī)則列表(Sushil 等人,2018)),保真度定義為解釋模型可以模仿原始模型決策的程度(比如準(zhǔn)確性accuracy score)。
對(duì)于解釋不是可計(jì)算模型的情況,Doshi-Velez 和 Kim(2017)提出了一種通過(guò)眾包將解釋映射到?jīng)Q策的簡(jiǎn)單方法,方法是要求人們模擬模型的決策而無(wú)需訪問(wèn)模型,而只能訪問(wèn)輸入和解釋(稱為正向仿真)。Nguyen(2018)進(jìn)一步探索并實(shí)踐了這一想法。
2018,ACM,《A survey of methods for explaining black box models.》
2019,AAAI,《Faithful and customizable explanations of black box models.》
假設(shè)2(預(yù)測(cè)假設(shè)):對(duì)于相似的輸入,當(dāng)且僅當(dāng)其推理相似時(shí),模型才會(huì)做出相似的決策。
推論2:如果解釋系統(tǒng)為相似的輸入和輸出提供不同的解釋,則它是不忠實(shí)的。
由于解釋是模型“推理”的代理,因此應(yīng)滿足相同的約束條件。換句話說(shuō),對(duì)類似決策的解釋應(yīng)該相似,而對(duì)不同決策的解釋應(yīng)該相似。
這種假設(shè)對(duì)于證明解釋不具有忠實(shí)性更有用,因?yàn)樽C偽解釋的不忠實(shí)需要找到適當(dāng)?shù)那闆r,可能證明需要檢查(非常大)令人滿意數(shù)量的示例,甚至整個(gè)輸入空間。
NLP 社區(qū)中最近的一次討論(Jain 和 Wallace,2019 年; Wiegreffe 和 Pinter,2019年,即《Attention is not explanation》和《Attention is not not explanation》的討論大戰(zhàn))涉及使用這一基本假設(shè)來(lái)評(píng)估注意力熱圖作為解釋。前者試圖針對(duì)每個(gè)實(shí)例對(duì)類似決定提供不同的解釋。后者對(duì)前者提出了批評(píng),并在很大程度上基于上述模型假設(shè)。
此外,Kindermans等(2019)《The (un)reliability of saliency methods.》建議對(duì)輸入空間引入恒定的轉(zhuǎn)移,并評(píng)估解釋是否隨著最終決定保持不變而發(fā)生顯著變化。AlvarezMelis和Jaakkola(2018)《On the robustness of interpretability methods.》在術(shù)語(yǔ)可解釋性健壯性下正式化了這種技術(shù)的概括:解釋應(yīng)不變于輸入中的小擾動(dòng)(預(yù)測(cè)假設(shè)的直接結(jié)果)。Wolf 等(2019)《A formal approach to explainability.》進(jìn)一步擴(kuò)展了這個(gè)概念,即“模型解釋的一致性”。不幸的是,由于離散輸入,很難在 NLP 設(shè)置中應(yīng)用魯棒性度量。
假設(shè)3(線性假設(shè)):輸入的某些部分對(duì)模型推理比其他部分更重要。而且,輸入的不同部分的貢獻(xiàn)彼此獨(dú)立。
推論3:在某些情況下,熱力圖的解釋可能是不忠實(shí)的。
該假設(shè)被考慮輸入上的熱圖(例如,注意力圖、顯著性圖)作為解釋的方法采用,在 NLP 中特別流行。熱圖是關(guān)于輸入的哪些部分比其他部分與模型決策更相關(guān)的主張。因此,我們可以設(shè)計(jì)“壓力測(cè)試”以驗(yàn)證它們是否支持其主張。
為此,一種建議的刪除方法是擦除,根據(jù)解釋,將輸入中“最相關(guān)”的部分從輸入中刪除,以期模型的決策會(huì)改變(Arras 等人,2016;Feng 等人;2018 年;Serrano and Smith,2019年)。否則,可能會(huì)刪除輸入中“最不相關(guān)”的部分,以期望模型的決定不會(huì)改變(Jacovi 等人,2018)。Yu 等(2019)今兒 DeYoung 等(2019)提出了兩種全面性和充分性的度量方法作為對(duì)擦除的正式概括:通過(guò)去除高級(jí)特征或僅包含高級(jí)特征對(duì)模型的影響程度。
實(shí)現(xiàn)忠實(shí)的解釋是不可能的嗎?
上述假設(shè)目前用于以二進(jìn)制方式評(píng)估忠實(shí)度:解釋是否嚴(yán)格忠實(shí)。具體來(lái)說(shuō),通過(guò)構(gòu)造假設(shè)不成立的案例,它們最常被用來(lái)表明一種方法是不真實(shí)的(無(wú)論是基于attenton,還是基于saliency,還是其他的方法)。
換句話說(shuō),對(duì)于各種解釋方法,存在通過(guò)反例進(jìn)行證明的明顯趨勢(shì),即它們不是全部忠實(shí)的。
然而這種方式的評(píng)估是無(wú)用的,因?yàn)槲覀兤谕@些各種方法能夠持續(xù)產(chǎn)生負(fù)面(而不是忠實(shí))的結(jié)果,從而延續(xù)當(dāng)前的趨勢(shì)。這是因?yàn)榻忉尩淖饔媒朴谀P突驔Q策的真實(shí)推理過(guò)程,因此定義會(huì)丟失信息。根據(jù)鴿籠原理,在解釋和推理之間會(huì)有偏差。
在實(shí)踐中,這在眾多顯示對(duì)抗行為或病理行為分析的工作中得到了觀察,這些行為或病理行為是由當(dāng)前模型的深層非線性和高維決策邊界引起的。此外,由于我們?nèi)狈?duì)哪些模型或決策確實(shí)可映射到人類可讀概念的監(jiān)督,因此我們不能忽略近似誤差。
那么,如果我們需要一個(gè)能提供忠實(shí)解釋的系統(tǒng),我們應(yīng)該怎么做?
通往更好的可解釋評(píng)估
我們認(rèn)為,擺脫目前僵局的方法是采用一種更實(shí)用,更細(xì)致的方法來(lái)定義和評(píng)估忠誠(chéng)度。我們向社區(qū)提出以下挑戰(zhàn):我們必須對(duì)忠實(shí)性進(jìn)行正式的定義和評(píng)估,從而使我們可以自由地說(shuō)出一種方法在實(shí)踐中足夠忠實(shí)可以用于實(shí)用。
在此,我們提出兩種可能的方式:
跨模型和任務(wù):在特定模型或任務(wù)級(jí)別的忠誠(chéng)度(以灰度表示)。也許某些模型或任務(wù)可以進(jìn)行充分忠實(shí)的解釋,即使對(duì)于其他模型或任務(wù)并非如此。例如,該方法可能不忠于某些問(wèn)答任務(wù),但忠實(shí)于情感分析,可能基于這些任務(wù)的各種句法和語(yǔ)義屬性。
跨輸入空間:在輸入空間的子空間級(jí)別(如相似輸入的鄰域或奇異輸入本身)上的忠誠(chéng)度。如果我們能夠在某種程度上確信特定決策的解釋是否忠實(shí)于模型,即使該解釋方法不被普遍認(rèn)為是忠實(shí)的,也只能將其用于特定領(lǐng)域或?qū)嵗?/p>
結(jié)論
本文提出的意見有兩個(gè)方面:
首先,可解釋性評(píng)估通常包含對(duì)忠誠(chéng)度和真實(shí)性的評(píng)估。我們應(yīng)該把這兩個(gè)定義分開,只專注于評(píng)估忠誠(chéng)度,而不會(huì)影響解釋的說(shuō)服力。
其次,對(duì)忠誠(chéng)度的評(píng)價(jià)通常采用二進(jìn)制“忠實(shí)或不忠實(shí)”的方式,我們認(rèn)為嚴(yán)格忠實(shí)的解釋是“獨(dú)角獸”,這將永遠(yuǎn)找不到。相反,我們應(yīng)該在更細(xì)微的“灰度”上評(píng)估忠實(shí)度,即使這些解釋不具有全球性和明確的忠實(shí)性,也可以使解釋有用。
這篇文章我認(rèn)為非常值得一讀。可解釋性不應(yīng)該成為玄學(xué),有了更系統(tǒng)和科學(xué)的評(píng)估以后,更好地幫助這一領(lǐng)域發(fā)展。
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
?????來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的论NLP可解释的评估:什么才是“好”的解释?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: ICLR 2021 | 美团、上交大等:
- 下一篇: 公交车司机工资多少钱 坐公交的不一