【深度学习】深度学习模型中的信任危机及校正方法
?
?作者: 北郵 GAMMA Lab 碩士生 劉洪瑞,副教授 王嘯
1 前言
深度學習在計算機視覺、自然語言處理、數據挖掘等諸多研究領域中的潛力被廣泛認可,在目標檢測、語音識別、醫療檢測、金融欺詐檢測等多種實際任務中也性能卓越。然而在追求卓越性能的過程之中,越來越多的研究者開始注意到性能背后的可信性問題(Trustworthiness)。尤其是當深度模型步入到實際應用中的風險敏感場景中時,深度模型結果的可信性更加成為一個迫切的需求。以自動駕駛系統設計為例,研究者期望模型的所有預測均是可信的,因為錯誤的預測可能會導致車禍的發生,帶來災難性后果。然而事實上,模型不可能做出100%正確的預測,那么
如何定義深度模型的可信性呢?
可信性的范疇其實見仁見智,其中一種思想是認為深度模型的置信度應該是符合“道理”的。簡單來講,也即深度模型對其預測的結果應該“知道它知道什么,同時也要知道它不知道什么”。更術語一點講,可以認為是深度模型對其預測正確的結果,應該給予較高的置信度,對于預測錯誤的結果,則應該有較低的置信度。在這種情況下,自動駕駛系統就可以僅采納高置信(如0.99)的預測,因為這代表了高準確率的預測(只有1%的概率出錯),而拒絕低置信的預測,這也就意味著模型的可信性得到了實現。在本文中,我們用置信度的校正性來衡量置信度是否符合“道理”。
通常置信度可以定義為 ,其中 為樣本 的邏輯(Logit)向量,即多分類問題下模型 層的輸入, 為算子。基于此,我們稱當置信度可以準確反映其預測準確率時,即滿足如下定義時,是被完美校正的(Perfectly Calibrated):
即,對于任意樣本 與其真實標簽 ,當模型對該樣本預測的置信度 時,該預測 是正確預測的概率同樣為 。舉例來講,如果模型對某100個樣本的預測均有0.8的置信度,且100個樣本中同樣有80%的樣本被預測正確,我們就可以認為該置信度在0.8附近是被校正的。
那么,在眾多深度學習方法中,模型的置信度是否是被完美校正的呢?
2 對置信度校正性的探究
對深度學習領域置信度校正性的探究源于卡耐基梅隆大學的Chuan Guo等人在ICML 2017的一篇論文《On Calibration of Modern Neural Networks》[1],其分別分析了在計算機視覺和自然語言處理領域中,多個當時的最新模型(ResNet, DenseNet, LSTM)在不同數據集(CIFAR-10, CIFAR-100, ImageNet, 20 News)下置信度的校正性,并利用了可靠性直方圖進行可視化,如下圖所示:
其中直方圖的橫坐標代表模型對預測的置信度,縱坐標代表預測的準確率。為了便于展示,作者將置信度區間[0,1]等間隔劃分為了十個置信度子區間,并分別統計每一子區間中預測的平均準確率,實際結果如藍色柱狀圖所示。顯然,如果模型的置信度是被完美校正的,則柱狀圖頂端應該恰好符合對角線分布(如紅色柱狀圖所示)。我們可以看到,實際上,藍色柱狀圖整體分布于對角線的下方。因此,作者指出目前多數深度學習模型的置信度并沒有被完美校正,且整體呈現出過于自信的(Over-Confident)傾向,即預測的平均置信度高于預測的平均準確率。
自此,眾多研究者開始致力于尋找到深度學習模型置信度校正能力差的理論解釋。[2] 指出置信度校正能力差源于深度神經網絡的過參數化現象,即網絡模型過于龐大以致于其可以記住整個訓練集,因而能最大化幾乎所有樣本的置信度。但是 [3] 理論證明了最簡單的邏輯回歸模型也是過于自信的,因此模型的校正能力和網絡參數量并沒有直接的關系,并給出了在經驗風險最小化(Empirical Risk Minimization,ERM)問題中,當損失函數滿足一定限制時,模型過于自信和不自信的充分條件。但事實上,正則化項對置信度的校正性有相當重要的影響[1, 4, 5],而在結構風險最小化(Structural Risk Minimization,SRM)問題中對置信度校正性的解釋仍有待探索。
盡管研究者早已對傳統深度學習模型的置信度校正進行了廣泛而又深入的研究,但是還鮮有人關注到圖神經網絡領域,我們在[9]中首先探索了半監督分類問題下圖神經網絡的置信度校正問題。具體來說,我們研究了多個有代表性的圖神經網絡模型在Cora、Citeseer、Pubmed和CoraFull等四個數據集中置信度的校正性,部分實驗結果如下圖所示:
我們卻觀察到,在大部分情況下,可靠性直方圖中的藍色柱高于紅色柱,即分類準確率高于其置信度,這說明圖神經網絡模型的置信度也沒有被很好地校正,模型對其預測是不自信的(Under-Confident)。這種現象與剛剛闡述過的計算機視覺和自然語言處理領域中的結論是不同的。
3 如何校正深度學習模型的置信度
自從 Chuan Guo 等人提出深度神經網絡模型的置信度存在校正能力差的問題后,近幾年來已經涌現出了諸多置信度校正方法,極大地促進了該領域的發展。本文將主要介紹 4種可以用來處理深度學習模型以及圖神經網絡模型的置信度校正方法。
3.1 Temperature Scaling
Temperature Scaling 是知識蒸餾中一種常用的軟標簽平滑方法,即利用一個溫度系數 對預測概率向量 進行平滑或尖銳化,Chuan Guo 等人[1] 最早將其作為了置信度校正方法。具體來說,給定任意一個樣本 的邏輯向量 ,經過Temperature Scaling校正后的置信度為:
其中 是一個可學習參數,一般通過優化驗證集樣本的交叉熵損失函數學習到。
當時,Temperature Scaling 會平滑 的輸出,進而減小預測的置信度,緩解模型過自信的問題;相反,當 時, 的輸出將變得越來越尖銳,對預測的置信度會趨近于1,這將有助于緩解對預測的不自信問題。此外,由于是一個大于零的參數,因此經過Temperature Scaling變換之后,向量各維度之間的序并不會發生改變,因此模型的預測也不會發生改變,因此利用Temperature Scaling做置信度校正并不會影響到模型的分類性能。
3.2 Isotonic Regression
保序回歸(Isotonic Regression,IR) [6] 是一種適用于二分類問題的非參數化的置信度校正方法,其旨在學習一個分段線性的保序函數對置信度進行校正:。保序回歸常用的保序函數求解方法是PAV算法(Pair-Adjacent Violators Algorithm)[7],主要思想是通過不斷合并、調整違反單調性的局部區間,使得最終得到的區間滿足單調性。此外,PAV算法也是scikit-learn中isotonic regression庫的求解算法。
PAV算法描述如下所示:
即,對于一個無序數字序列,PAV會從該序列的首元素往后觀察,一旦出現亂序現象停止該輪觀察,從該亂序元素開始逐個吸收元素組成一個序列,直到該序列所有元素的平均值小于或等于下一個待吸收的元素。更詳細的描述可以參見https://zhuanlan.zhihu.com/p/88623159。
3.3 Mix-n-Match
Mix-n-Match [8] 一文對此前出現的諸多置信度校正方法進行了系統的分析,并提出了一個合理的置信度校正方法應該滿足以下三個條件:(1)不改變模型的分類性能(2)數據有效性——不需要大量訓練數據即可得到較好的置信度校正函數(3)表達能力強——能夠近似任意需要的置信度校正函數。為此,該文組合了此前的諸多置信度校正方法,棄其糟粕,取其精華,提出了Mix-n-Match方法。
首先,對Temperature Scaling方法進行了改進,提出Ensemble Temperature Scaling (ETS),以提升該方法的表達能力,即:
其中,是類別個數,是分類模型的輸出,被稱之為預測概率向量。
然后,對Isotonic Regression進行了改進,使其可以擴展到多分類問題。具體來說:
step1:對于所有參與到訓練置信度校正函數的個樣本的預測概率向量,將其所有個維度的值抽取出來,構成一個新的集合。同樣,對這些樣本的標簽進行相同的操作,得到。對兩個集合按照的大小進行排序
step2:利用PAV算法在與上學習一個保序函數:
step3:使是一個嚴格保序函數,即,其中 是一個極小的常數。
最后,組合ETS和改進的IR,得到Mix-n-Match,如下所示:
3.4 CaGCN
CaGCN[9]是第一個對圖神經網絡中的置信度進行校正的方法,其設計考慮到了圖數據結構中獨特的拓撲結構信息,并詳細分析了在對圖神經網絡中的置信度進行校正時考慮拓撲信息的必要性。具體來說,考慮兩個節點a, b,其中 a 節點處于高同配性的區域,即 a 節點與其鄰居節點的特征和標簽均相近,而 b 節點處于高異配性的區域。根據第2節提到的圖神經網絡的置信度校正性差的結論,我們可以假設節點a和b的置信度均沒有被很好的校正,此外,為了便于分析,我們額外假設兩節點的邏輯向量 相近。根據之前的研究結論,具有代表性的圖神經網絡模型如GCN、GAT等在高同配性的數據集中表現更好,因此我們可以認為節點 a 應該具有更高的置信度,而相應地,節點b的置信度應該比較低。然而,在不考慮到網絡的拓撲結構的情況下,由于兩節點的邏輯向量 相近(如前面所述,一般是校正函數的輸入),因此只能對 a 和 b 進行相同方向的校正,而無法同時使 a 的置信度變高并使 b 的置信度變低。所以,理論上講,CV 和 NLP 中提出的置信度校正方法事實上并不適用于圖數據結構。
基于上述分析,[9]提出了考慮到網絡拓撲結構的校正方法CaGCN。CaGCN的設計基于置信度分布的同配性假設,即相鄰節點的置信度趨向于相同有利于置信度校正,我們通過實驗驗證了該假設。具體來說,我們對比了未進行置信度校正時和經過Temperature Scaling(TS)校正后置信度總變差的變化,其中置信度的總變差被用來衡量其同配性,總變差越小,說明相鄰節點的置信度越相近,因此置信度分布的同配性越強;而Temperature Scaling 是公認的性能較好的置信度校正方法。實驗結果如下表所示:
可以清楚地看到,經過TS進行置信度校正后,節點置信度的總變差有明顯下降,這證明了我們之前的假設。考慮到GCN 天然可以平滑鄰居節點特征,我們利用 GCN 模型作為我們基礎的置信度校正函數,如下所示:
即以分類模型的輸出作為輸入,利用GCN為每一個節點學習到一個單獨的溫度系數,然后進行Temperature Scaling變換。可以看到,溫度系數的計算考慮到了網絡的拓撲結構,滿足了我們的設計初衷。CaGCN的模型圖如下所示:
更詳細的介紹,可以參考論文:
https://proceedings.neurips.cc/paper/2021/hash/c7a9f13a6c0940277d46706c7ca32601-Abstract.html
引文
[1] Guo C, Pleiss G, Sun Y, et al. On calibration of modern neural networks[C]//International Conference on Machine Learning. PMLR, 2017: 1321-1330.
[2] Mukhoti J, Kulharia V, Sanyal A, et al. Calibrating deep neural networks using focal loss[J]. arXiv preprint arXiv:2002.09437, 2020.
[3] Bai Y, Mei S, Wang H, et al. Don't Just Blame Over-parametrization for Over-confidence: Theoretical Analysis of Calibration in Binary Classification[J]. arXiv preprint arXiv:2102.07856, 2021.
[4] Gal Y, Ghahramani Z. Dropout as a bayesian approximation: Representing model uncertainty in deep learning[C]//international conference on machine learning. PMLR, 2016: 1050-1059.
[5] Thulasidasan S, Chennupati G, Bilmes J, et al. Improved calibration and predictive uncertainty for deep neural networks[J]. arXiv preprint arXiv:1905.11001, 2019.
[6] Zadrozny, Bianca and Elkan, Charles. Obtaining calibrated probability estimates from decision trees and naive bayesian classifiers. In ICML, pp. 609–616, 2001.
[7] Ayer, M., Brunk, H. D., Ewing, G. M., Reid, W. T., and Silverman, E. An empirical distribution function for sampling with incomplete information. The Annals of Mathematical Statistics, pp. 641–647, 1955.
[8] Zhang J, Kailkhura B, Han T Y J. Mix-n-match: Ensemble and compositional methods for uncertainty calibration in deep learning[C]//International Conference on Machine Learning. PMLR, 2020: 11117-11128.
[9] Wang X, Liu H, Shi C, et al. Be Confident! Towards Trustworthy Graph Neural Networks via Confidence Calibration[J]. Advances in Neural Information Processing Systems, 2021, 34.
本期責任編輯:王嘯
本期編輯:劉佳瑋
北郵 GAMMA Lab 公眾號
主編:石川
責任編輯:王嘯、楊成
編輯:劉佳瑋
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統計學習方法》的代碼復現專輯 AI基礎下載黃海廣老師《機器學習課程》視頻課黃海廣老師《機器學習課程》711頁完整版課件本站qq群955171419,加入微信群請掃碼:
總結
以上是生活随笔為你收集整理的【深度学习】深度学习模型中的信任危机及校正方法的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 简单参数让谷歌Chrome浏览器单进程运
- 下一篇: syslog发送日志而docker容器接