“概念白化”,提供神经网络可解释性的新技术
作者:Ben Dickson(軟件工程師、TechTalks 的創始人)
譯者:hhhnoone
原文:Deep learning doesn’t need to be a black box
深度神經網絡的成功,要歸功于它們極其龐大而復雜的參數網絡,但是這種復雜性也導致了某些弊端:神經網絡的內部運作通常是一個謎 —— 即使對于其創造者而言也是如此。自從深度學習從 2010 年代初期開始流行以來,這個難題就持續困擾著人工智能社區。
隨著深度學習在不同領域的應用和拓展,人們對能夠通過驗證神經網絡結果和學習參數來解釋神經網絡(內部工作原理)的技術越來越感興趣。
最近,Nature Machine Intelligence 發表的一篇論文,介紹了一種有潛力的新方法。杜克大學的科學家提出了一種名為 “concept whitening”(概念白化)技術,可在不犧牲性能的前提下幫助引導神經網絡學習特定的概念。concept whitening 將可解釋性帶入了深度學習模型,而不是在數百萬經過過訓練的參數中尋找答案,顯示出令人鼓舞的結果。
深度學習模型的特征和隱空間
如果有足夠高質量的訓練例子,一個具有合理架構的深度學習模型應該能夠區分不同類型的輸入。例如,在計算機視覺任務中,經過訓練的神經網絡將能夠將圖像的像素值轉換為其相應的類別。而 concept whitening,正是在圖像識別背景下提出的。
在訓練過程中,深度學習模型的每一層都將訓練圖像的特征編碼成一組數值,并存儲在其參數中,這被稱為 AI 模型的隱空間(Latent Space)。一般來說,多層卷積神經網絡的較低層將學習基本特征,如角和邊,更高層次的神經網絡將學習檢測更復雜的特征,如人臉、物體、完整的場景等。
圖:神經網絡的每一層編碼輸入圖片的特定特征
理想情況下,神經網絡的隱空間代表一些概念,這些概念與神經網絡要檢測的圖像類別相關,但是我們通常不能清楚地意識到這一點,并且深度學習模型傾向于學習最具有辨識度的特征,即使這些特征是錯誤的。
例如,下面的數據集包含一些圖像,這些圖像中包含小貓,同時右下角恰好有一個 logo。一個人可以很容易認為 logo 與目標無關,從而忽略它,但深度學習模型可能會發現,右下角有一個 logo 是區分貓和其他動物最簡單、最有效的方法。同樣,如果你的訓練集中所有的綿羊圖像都包含大片的綠色牧場,你的神經網絡可能會學著檢測綠色牧場而不是檢測綿羊。
圖:訓練時,機器學習算法會搜索將像素與標簽相關聯的最易區分的特征。
所以,除了深度學習模型在訓練和測試數據集上的表現,了解它已經學會檢測哪些概念和特征也很重要。這就是經典解釋技巧發揮作用的地方。
神經網絡的事后歸因
許多深度學習技術都是事后歸因的( post hoc),即嘗試通過檢查其輸出和參數值來使經過訓練的神經網絡有意義。例如,一種常見的技術通過屏蔽輸入圖像的不同部分來確定神經網絡在圖像中看到了什么(神經網絡看懂了圖像的哪個部分或那個特征),并觀察這些變化如何影響深度學習模型的輸出,這項技術有助于創建熱圖(heap map),它可以用來突出與神經網絡更相關的圖像特征。
圖:特征圖示例
其他事后歸因技術包括打開和關閉不同的人工神經元,并檢查這些變化如何影響 AI 模型的輸出。這些方法有助于發現特征與隱空間之間關系。雖然這些方法很有幫助,但它們仍然將深度學習模型視為黑盒,并不能明確描繪出神經網絡的工作原理。
現有解釋方法通常是對性能的匯總統計 (例如,局部近似,節點激活的一般趨勢),而不是對模型計算的實際解釋”,concept whitening 論文的作者寫道。例如,特征圖的問題在于,它們經常不能顯示神經網絡可能已經學習到的錯誤內容,當神經網絡的特征分散在隱空間時,解釋單個神經元的作用變得非常困難。
圖:特征圖解釋并不能準確描述黑盒 AI 模型的工作方式。
杜克大學計算機科學博士生、 concept whitening 論文的第一作者 Zhi Chen 表示:“深度神經網絡 (DNNs) 在圖像識別領域中非常強大,但由于其復雜性,在 DNNs 的隱藏層中學到了什么是未知的。缺乏可解釋性使得神經網絡不值得信任,也很難進行故障排除,” 以往許多工作都嘗試解釋神經網絡模型所學習到的東西,例如每個神經元所學習到的概念有哪些,但是這些工作嚴重依賴這樣一個假設:這些概念被神經網絡真實學習到(但實際上并不是)并且集中在一個神經元上。
杜克大學計算機科學教授辛西婭?Rudin (Cynthia Rudin) 是 concept whitening 論文的聯合著者,她此前就警告過相信黑盒解釋技術的危險,并展示了這種方法可能會對神經網絡提供錯誤的解釋。在之前發表在 Nature Machine Intelligence 雜志上的另一篇論文中,魯丁鼓勵使用和開發具有內在可解釋性的 AI 模型。
這次提出的 concept whitening,目標是讓神經網絡的隱空間與一些概念所對齊,而這些概念就是神經網絡的目標。這種方法將使深度學習模型具有可解釋性,也使我們更容易找出輸入圖像的特征與神經網絡的輸出之間的關系。Rudin 稱:“我們的工作直接改變了神經網絡,以解耦隱空間,使 axes 與已知概念對齊。”
深度學習模型通常在單個帶標簽的示例數據集上進行訓練。concept whitening 引入另一種數據集,該數據集包含概念示例。而這些概念與 AI 模型的主要任務有關。例如,如果你的深度學習模型主要用于檢測臥室,相關的概念將包括床、燈、窗、門等。
“有代表性的樣本可以手工選擇,因為它們可能構成我們對可解釋性的定義,”Chen 說,“機器學習從業者可以通過任何方式收集這些樣本,創建適合自己應用的概念數據集。例如,可以要求醫生選擇有代表性的 x 射線圖像來定義醫學概念(數據集)?!?/p>
通過 concept whitening,團隊對深度學習模型進行了兩個并行的訓練周期。當神經網絡調整其總體參數來代表主要任務中的類別時,concept whitening 調整每一層中的特定神經元,使這些神經元與概念數據集中所包含的類別對齊。
其結果是形成了一個解耦的隱空間,概念在每一層被整齊地分開,神經元的激活對應于它們各自的概念?!斑@樣的解耦可以讓我們更清楚地了解神經網絡是如何逐漸在不同層次上學習概念的,”,Chen 說(這里的解耦 disentangle,意味著隱空間的不同部分代表不同的概念)。
為了評估 concept whitenin 技術的有效性,研究人員通過在不同層次插入 concept whitening 模塊的深度學習模型運行了一系列驗證圖像。然后他們根據每一層激活的概念神經元對圖像進行分類。在神經網絡較低層,concept whitenin 模塊捕獲低級特征,如顏色和紋理。例如,神經網絡的較低層可以學習到包含白色物體的藍色圖像與 “飛機” 的概念密切相關,而暖色調的圖像更有可能包含 “床” 的概念。在更高層,神經網絡學習去對概念進行分類。
圖: Concept whitening 在低層學習低級信息 (如顏色、紋理),在高層學習高級信息 (如物體、人)。
概念分解和對齊的好處之一是,神經網絡變得不太容易犯明顯的錯誤。當圖像進入神經網絡,較高層的概念神經元會糾正可能發生在較低層的錯誤。例如,在下圖中,由于藍白像素的密集存在,神經網絡的較低層錯誤地將圖像與 “飛機” 的概念聯系起來。但當圖像在更高的層次上移動時,概念神經元將結果引導到正確的方向 (如圖所示)。
圖:當圖像從神經網絡的較低層移動到較高層時,Concept whitening 可以糾正錯誤的概念和錯誤。
AI 領域之前的工作包括創建分類器,試圖從神經網絡的隱空間中的值推斷概念。但是,根據 Chen 的說法,沒有一個解耦的隱空間,這些(沒有采用 Concept whitening 的)方法學習的概念是不純粹的,因為概念神經元的預測分數(prediction scores)可以是相關的。“以前,有些人曾試圖以監督學習的方式解開神經網絡的糾纏,但并沒有以一種方式真正能夠解耦隱空間。另一方面,Concept whitening 通過白化變換(whitening transformation)解除軸間的關聯,真正解耦了這些概念。
Concept whitening 在深度學習中的應用
具體而言,Concept whitening 是可以插入卷積神經網絡的模塊,從而替換 batch normalization 模塊。batch normalization 于 2015 年推出,是一項目前流行的技術,它可以調整用于訓練神經網絡的數據的分布,以加快訓練速度并避免諸如過擬合之類的假象。多數卷積神經網絡在各個層中使用 batch normalization。
除了 batch normalization 功能外,Concept whitening 還使數據沿代表相關概念的多個軸對齊。
Concept whitening 架構的好處在于,它可以輕松地集成到許多現有的深度學習模型。在研究過程中,團隊通過用 Concept whitening 代替 batch normalization 模塊,修改了幾種流行的預訓練深度學習模型,并且僅用一個 epoch 的訓練就達到了預期的結果(一個 epoch 是訓練完整訓練集的時間。深度學習模塊在從頭開始訓練時,通常經歷許多 epoch)。
“CW 可以應用于醫學成像等領域,在這些領域中可解釋性非常重要,”Rudin 說。
在他們的實驗中,研究人員將 concept whitening 應用到診斷皮膚損傷的深度學習模型中?!霸?CW 隱空間上測量概念重要性分數(Concept importance scores),可以為哪些概念在皮膚病變診斷中可能更重要提供實用的見解”,他們在論文中寫道。
Chen 表示:“為了進一步發展,我們計劃不依賴于預定義的概念,而是從數據集中發現這些概念,尤其是尚未發現的、有用的、未定義的概念,然后再以解耦的方式在神經網絡的隱空間中明確表示這些發現的概念,以更好地解釋(神經網絡的工作原理)”。
對于他們來說,未來研究的另一個方向是在層次結構中組織概念,并解耦概念集群,而不是單個概念。
對深度學習研究的啟示
長久以來,伴隨著深度學習模型的逐年擴大和復雜化,關于如何處理神經網絡的透明度問題有了越來越多元的不同理論。
主要爭論之一在于,是否應該觀察 AI 模型的行為,而非試圖查看黑盒內部的工作原理。這與研究動物和人類的大腦,進行實驗并記錄大腦活動的方式相同。該理論的支持者認為,任何對神經網絡施加可解釋性設計約束的嘗試,都將導致模型質量下降。如果大腦在沒有智能的自上而下設計的情況下經過數十億次迭代而進化,那么神經網絡也應該通過純進化途徑達到其最高性能。
Concept whitening 反駁了這一理論,并證明可以在不造成任何性能損失的情況下,對神經網絡施加自上而下的設計約束。有趣的是,實驗表明,深度學習模型的 Concept whitening 模塊可提供可解釋性,且任務的準確性不會顯著下降。
Rudin 說:“Concept whitening 和我們實驗室 (以及其他許多實驗室) 的許多其他工作清楚地表明,在不影響性能的情況下,構建一個可解釋模型是可能的。我們希望這一工作可以改變人們的假設,即一個黑盒對良好的性能是必要的,并希望該 工作能吸引更多人在其各自領域中建立可解釋的模型?!?/p>
References:
1、https://bdtechtalks.com/2021/01/11/concept-whitening-interpretable-neural-networks/
2、https://www.nature.com/articles/s42256-020-00265-z
關于數據實戰派
數據實戰派希望用真實數據和行業實戰案例,幫助讀者提升業務能力,共建有趣的大數據社區。
總結
以上是生活随笔為你收集整理的“概念白化”,提供神经网络可解释性的新技术的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【UOJ449】【集训队作业2018】喂
- 下一篇: 低成本营销有哪些策略 分享总结的营销方式