Nature Machine Intelligence论文:「概念白化」,提供神经网络可解释性的新技术
???????????作者:Ben Dickson(軟件工程師、TechTalks 的創(chuàng)始人)
譯者:hhhnoone
原文:Deep learning doesn’t need to be a black box
深度神經(jīng)網(wǎng)絡(luò)的成功,要歸功于它們極其龐大而復(fù)雜的參數(shù)網(wǎng)絡(luò),但是這種復(fù)雜性也導(dǎo)致了某些弊端:神經(jīng)網(wǎng)絡(luò)的內(nèi)部運作通常是一個謎 —— 即使對于其創(chuàng)造者而言也是如此。自從深度學(xué)習(xí)從 2010 年代初期開始流行以來,這個難題就持續(xù)困擾著人工智能社區(qū)。
隨著深度學(xué)習(xí)在不同領(lǐng)域的應(yīng)用和拓展,人們對能夠通過驗證神經(jīng)網(wǎng)絡(luò)結(jié)果和學(xué)習(xí)參數(shù)來解釋神經(jīng)網(wǎng)絡(luò)(內(nèi)部工作原理)的技術(shù)越來越感興趣。
最近,Nature Machine Intelligence 發(fā)表的一篇論文,介紹了一種有潛力的新方法。杜克大學(xué)的科學(xué)家提出了一種名為 “concept whitening”(概念白化)技術(shù),可在不犧牲性能的前提下幫助引導(dǎo)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)特定的概念。concept whitening 將可解釋性帶入了深度學(xué)習(xí)模型,而不是在數(shù)百萬經(jīng)過過訓(xùn)練的參數(shù)中尋找答案,顯示出令人鼓舞的結(jié)果。
01
深度學(xué)習(xí)模型的特征和隱空間
如果有足夠高質(zhì)量的訓(xùn)練例子,一個具有合理架構(gòu)的深度學(xué)習(xí)模型應(yīng)該能夠區(qū)分不同類型的輸入。例如,在計算機視覺任務(wù)中,經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)將能夠?qū)D像的像素值轉(zhuǎn)換為其相應(yīng)的類別。而 concept whitening,正是在圖像識別背景下提出的。
在訓(xùn)練過程中,深度學(xué)習(xí)模型的每一層都將訓(xùn)練圖像的特征編碼成一組數(shù)值,并存儲在其參數(shù)中,這被稱為 AI 模型的隱空間(Latent Space)。一般來說,多層卷積神經(jīng)網(wǎng)絡(luò)的較低層將學(xué)習(xí)基本特征,如角和邊,更高層次的神經(jīng)網(wǎng)絡(luò)將學(xué)習(xí)檢測更復(fù)雜的特征,如人臉、物體、完整的場景等。
圖:神經(jīng)網(wǎng)絡(luò)的每一層編碼輸入圖片的特定特征
理想情況下,神經(jīng)網(wǎng)絡(luò)的隱空間代表一些概念,這些概念與神經(jīng)網(wǎng)絡(luò)要檢測的圖像類別相關(guān),但是我們通常不能清楚地意識到這一點,并且深度學(xué)習(xí)模型傾向于學(xué)習(xí)最具有辨識度的特征,即使這些特征是錯誤的。
例如,下面的數(shù)據(jù)集包含一些圖像,這些圖像中包含小貓,同時右下角恰好有一個 logo。一個人可以很容易認為 logo 與目標無關(guān),從而忽略它,但深度學(xué)習(xí)模型可能會發(fā)現(xiàn),右下角有一個 logo 是區(qū)分貓和其他動物最簡單、最有效的方法。同樣,如果你的訓(xùn)練集中所有的綿羊圖像都包含大片的綠色牧場,你的神經(jīng)網(wǎng)絡(luò)可能會學(xué)著檢測綠色牧場而不是檢測綿羊。
圖:訓(xùn)練時,機器學(xué)習(xí)算法會搜索將像素與標簽相關(guān)聯(lián)的最易區(qū)分的特征。
所以,除了深度學(xué)習(xí)模型在訓(xùn)練和測試數(shù)據(jù)集上的表現(xiàn),了解它已經(jīng)學(xué)會檢測哪些概念和特征也很重要。這就是經(jīng)典解釋技巧發(fā)揮作用的地方。
02
神經(jīng)網(wǎng)絡(luò)的事后歸因
許多深度學(xué)習(xí)技術(shù)都是事后歸因的( post hoc),即嘗試通過檢查其輸出和參數(shù)值來使經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)有意義。例如,一種常見的技術(shù)通過屏蔽輸入圖像的不同部分來確定神經(jīng)網(wǎng)絡(luò)在圖像中看到了什么(神經(jīng)網(wǎng)絡(luò)看懂了圖像的哪個部分或那個特征),并觀察這些變化如何影響深度學(xué)習(xí)模型的輸出,這項技術(shù)有助于創(chuàng)建熱圖(heap map),它可以用來突出與神經(jīng)網(wǎng)絡(luò)更相關(guān)的圖像特征。
圖:特征圖示例
其他事后歸因技術(shù)包括打開和關(guān)閉不同的人工神經(jīng)元,并檢查這些變化如何影響 AI 模型的輸出。這些方法有助于發(fā)現(xiàn)特征與隱空間之間關(guān)系。雖然這些方法很有幫助,但它們?nèi)匀粚⑸疃葘W(xué)習(xí)模型視為黑盒,并不能明確描繪出神經(jīng)網(wǎng)絡(luò)的工作原理。
現(xiàn)有解釋方法通常是對性能的匯總統(tǒng)計 (例如,局部近似,節(jié)點激活的一般趨勢),而不是對模型計算的實際解釋”,concept whitening 論文的作者寫道。例如,特征圖的問題在于,它們經(jīng)常不能顯示神經(jīng)網(wǎng)絡(luò)可能已經(jīng)學(xué)習(xí)到的錯誤內(nèi)容,當(dāng)神經(jīng)網(wǎng)絡(luò)的特征分散在隱空間時,解釋單個神經(jīng)元的作用變得非常困難。
圖:特征圖解釋并不能準確描述黑盒 AI 模型的工作方式。
杜克大學(xué)計算機科學(xué)博士生、 concept whitening 論文的第一作者 Zhi Chen 表示:“深度神經(jīng)網(wǎng)絡(luò) (DNNs) 在圖像識別領(lǐng)域中非常強大,但由于其復(fù)雜性,在 DNNs 的隱藏層中學(xué)到了什么是未知的。缺乏可解釋性使得神經(jīng)網(wǎng)絡(luò)不值得信任,也很難進行故障排除,” 以往許多工作都嘗試解釋神經(jīng)網(wǎng)絡(luò)模型所學(xué)習(xí)到的東西,例如每個神經(jīng)元所學(xué)習(xí)到的概念有哪些,但是這些工作嚴重依賴這樣一個假設(shè):這些概念被神經(jīng)網(wǎng)絡(luò)真實學(xué)習(xí)到(但實際上并不是)并且集中在一個神經(jīng)元上。
杜克大學(xué)計算機科學(xué)教授辛西婭?Rudin (Cynthia Rudin) 是 concept whitening 論文的聯(lián)合著者,她此前就警告過相信黑盒解釋技術(shù)的危險,并展示了這種方法可能會對神經(jīng)網(wǎng)絡(luò)提供錯誤的解釋。在之前發(fā)表在 Nature Machine Intelligence 雜志上的另一篇論文中,魯丁鼓勵使用和開發(fā)具有內(nèi)在可解釋性的 AI 模型。
這次提出的 concept whitening,目標是讓神經(jīng)網(wǎng)絡(luò)的隱空間與一些概念所對齊,而這些概念就是神經(jīng)網(wǎng)絡(luò)的目標。這種方法將使深度學(xué)習(xí)模型具有可解釋性,也使我們更容易找出輸入圖像的特征與神經(jīng)網(wǎng)絡(luò)的輸出之間的關(guān)系。Rudin 稱:“我們的工作直接改變了神經(jīng)網(wǎng)絡(luò),以解耦隱空間,使 axes 與已知概念對齊。”
深度學(xué)習(xí)模型通常在單個帶標簽的示例數(shù)據(jù)集上進行訓(xùn)練。concept whitening 引入另一種數(shù)據(jù)集,該數(shù)據(jù)集包含概念示例。而這些概念與 AI 模型的主要任務(wù)有關(guān)。例如,如果你的深度學(xué)習(xí)模型主要用于檢測臥室,相關(guān)的概念將包括床、燈、窗、門等。
“有代表性的樣本可以手工選擇,因為它們可能構(gòu)成我們對可解釋性的定義,”Chen 說,“機器學(xué)習(xí)從業(yè)者可以通過任何方式收集這些樣本,創(chuàng)建適合自己應(yīng)用的概念數(shù)據(jù)集。例如,可以要求醫(yī)生選擇有代表性的 x 射線圖像來定義醫(yī)學(xué)概念(數(shù)據(jù)集)。”
通過 concept whitening,團隊對深度學(xué)習(xí)模型進行了兩個并行的訓(xùn)練周期。當(dāng)神經(jīng)網(wǎng)絡(luò)調(diào)整其總體參數(shù)來代表主要任務(wù)中的類別時,concept whitening 調(diào)整每一層中的特定神經(jīng)元,使這些神經(jīng)元與概念數(shù)據(jù)集中所包含的類別對齊。
其結(jié)果是形成了一個解耦的隱空間,概念在每一層被整齊地分開,神經(jīng)元的激活對應(yīng)于它們各自的概念。“這樣的解耦可以讓我們更清楚地了解神經(jīng)網(wǎng)絡(luò)是如何逐漸在不同層次上學(xué)習(xí)概念的,”,Chen 說(這里的解耦 disentangle,意味著隱空間的不同部分代表不同的概念)。
為了評估 concept whitenin 技術(shù)的有效性,研究人員通過在不同層次插入 concept whitening 模塊的深度學(xué)習(xí)模型運行了一系列驗證圖像。然后他們根據(jù)每一層激活的概念神經(jīng)元對圖像進行分類。
在神經(jīng)網(wǎng)絡(luò)較低層,concept whitenin 模塊捕獲低級特征,如顏色和紋理。例如,神經(jīng)網(wǎng)絡(luò)的較低層可以學(xué)習(xí)到包含白色物體的藍色圖像與 “飛機” 的概念密切相關(guān),而暖色調(diào)的圖像更有可能包含 “床” 的概念。在更高層,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)去對概念進行分類。
圖: Concept whitening 在低層學(xué)習(xí)低級信息 (如顏色、紋理),在高層學(xué)習(xí)高級信息 (如物體、人)。
概念分解和對齊的好處之一是,神經(jīng)網(wǎng)絡(luò)變得不太容易犯明顯的錯誤。當(dāng)圖像進入神經(jīng)網(wǎng)絡(luò),較高層的概念神經(jīng)元會糾正可能發(fā)生在較低層的錯誤。例如,在下圖中,由于藍白像素的密集存在,神經(jīng)網(wǎng)絡(luò)的較低層錯誤地將圖像與 “飛機” 的概念聯(lián)系起來。但當(dāng)圖像在更高的層次上移動時,概念神經(jīng)元將結(jié)果引導(dǎo)到正確的方向 (如圖所示)。
圖:當(dāng)圖像從神經(jīng)網(wǎng)絡(luò)的較低層移動到較高層時,Concept whitening 可以糾正錯誤的概念和錯誤。
AI 領(lǐng)域之前的工作包括創(chuàng)建分類器,試圖從神經(jīng)網(wǎng)絡(luò)的隱空間中的值推斷概念。但是,根據(jù) Chen 的說法,沒有一個解耦的隱空間,這些(沒有采用 Concept whitening 的)方法學(xué)習(xí)的概念是不純粹的,因為概念神經(jīng)元的預(yù)測分數(shù)(prediction scores)可以是相關(guān)的。
“以前,有些人曾試圖以監(jiān)督學(xué)習(xí)的方式解開神經(jīng)網(wǎng)絡(luò)的糾纏,但并沒有以一種方式真正能夠解耦隱空間。另一方面,Concept whitening 通過白化變換(whitening transformation)解除軸間的關(guān)聯(lián),真正解耦了這些概念。”
03
Concept whitening 在深度學(xué)習(xí)中的應(yīng)用
具體而言,Concept whitening 是可以插入卷積神經(jīng)網(wǎng)絡(luò)的模塊,從而替換 batch normalization 模塊。batch normalization 于 2015 年推出,是一項目前流行的技術(shù),它可以調(diào)整用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)的分布,以加快訓(xùn)練速度并避免諸如過擬合之類的假象。多數(shù)卷積神經(jīng)網(wǎng)絡(luò)在各個層中使用 batch normalization。
除了 batch normalization 功能外,Concept whitening 還使數(shù)據(jù)沿代表相關(guān)概念的多個軸對齊。
Concept whitening 架構(gòu)的好處在于,它可以輕松地集成到許多現(xiàn)有的深度學(xué)習(xí)模型。在研究過程中,團隊通過用 Concept whitening 代替 batch normalization 模塊,修改了幾種流行的預(yù)訓(xùn)練深度學(xué)習(xí)模型,并且僅用一個 epoch 的訓(xùn)練就達到了預(yù)期的結(jié)果(一個 epoch 是訓(xùn)練完整訓(xùn)練集的時間。深度學(xué)習(xí)模塊在從頭開始訓(xùn)練時,通常經(jīng)歷許多 epoch)。
“CW 可以應(yīng)用于醫(yī)學(xué)成像等領(lǐng)域,在這些領(lǐng)域中可解釋性非常重要,”Rudin 說。
在他們的實驗中,研究人員將 concept whitening 應(yīng)用到診斷皮膚損傷的深度學(xué)習(xí)模型中。“在 CW 隱空間上測量概念重要性分數(shù)(Concept importance scores),可以為哪些概念在皮膚病變診斷中可能更重要提供實用的見解”,他們在論文中寫道。
Chen 表示:“為了進一步發(fā)展,我們計劃不依賴于預(yù)定義的概念,而是從數(shù)據(jù)集中發(fā)現(xiàn)這些概念,尤其是尚未發(fā)現(xiàn)的、有用的、未定義的概念,然后再以解耦的方式在神經(jīng)網(wǎng)絡(luò)的隱空間中明確表示這些發(fā)現(xiàn)的概念,以更好地解釋(神經(jīng)網(wǎng)絡(luò)的工作原理)”。
對于他們來說,未來研究的另一個方向是在層次結(jié)構(gòu)中組織概念,并解耦概念集群,而不是單個概念。
04
對深度學(xué)習(xí)研究的啟示
長久以來,伴隨著深度學(xué)習(xí)模型的逐年擴大和復(fù)雜化,關(guān)于如何處理神經(jīng)網(wǎng)絡(luò)的透明度問題有了越來越多元的不同理論。
主要爭論之一在于,是否應(yīng)該觀察 AI 模型的行為,而非試圖查看黑盒內(nèi)部的工作原理。這與研究動物和人類的大腦,進行實驗并記錄大腦活動的方式相同。該理論的支持者認為,任何對神經(jīng)網(wǎng)絡(luò)施加可解釋性設(shè)計約束的嘗試,都將導(dǎo)致模型質(zhì)量下降。如果大腦在沒有智能的自上而下設(shè)計的情況下經(jīng)過數(shù)十億次迭代而進化,那么神經(jīng)網(wǎng)絡(luò)也應(yīng)該通過純進化途徑達到其最高性能。
Concept whitening 反駁了這一理論,并證明可以在不造成任何性能損失的情況下,對神經(jīng)網(wǎng)絡(luò)施加自上而下的設(shè)計約束。有趣的是,實驗表明,深度學(xué)習(xí)模型的 Concept whitening 模塊可提供可解釋性,且任務(wù)的準確性不會顯著下降。
Rudin 說:“Concept whitening 和我們實驗室 (以及其他許多實驗室) 的許多其他工作清楚地表明,在不影響性能的情況下,構(gòu)建一個可解釋模型是可能的。我們希望這一工作可以改變?nèi)藗兊募僭O(shè),即一個黑盒對良好的性能是必要的,并希望該工作能吸引更多人在其各自領(lǐng)域中建立可解釋的模型。”
參考鏈接:
1、https://bdtechtalks.com/2021/01/11/concept-whitening-interpretable-neural-networks/
2、https://www.nature.com/articles/s42256-020-00265-z
歡迎加入興趣組,共同交流【可解釋性】研究進展
推薦閱讀:
點擊下方圖片即可閱讀
前沿綜述 · 機器學(xué)習(xí)的可解釋性
前沿綜述 ·?Transformer?在各學(xué)科中的應(yīng)用
點擊左下角“閱讀原文”,了解更多!
總結(jié)
以上是生活随笔為你收集整理的Nature Machine Intelligence论文:「概念白化」,提供神经网络可解释性的新技术的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: RS232、RS485、RS422、RJ
- 下一篇: Windows下模拟弱网(web、app