真的不值得重视吗?ETH Zurich博士重新审视贝叶斯深度学习先验
?作者?|?杜偉、力元
來源 |?機器之心
一直以來,貝葉斯深度學習的先驗都不夠受重視,這樣真的好么?蘇黎世聯邦理工學院計算機科學系的一位博士生 Vincent Fortuin 對貝葉斯深度學習先驗進行了重新審視。
眾所周知,先驗的選擇是貝葉斯推斷流程中最關鍵的部分之一,但最近的貝葉斯深度學習模型比較依賴非信息性先驗,比如標準的高斯。
在本篇論文中,來自蘇黎世聯邦理工學院計算機科學系的博士生 Vincent Fortuin 強調了先驗選擇對貝葉斯深度學習的重要性,概述了針對(深度)高斯過程、變分自編碼器、貝葉斯神經網絡的不同先驗,并從數據中總結了學習這些模型先驗的方法。
作者 Vincent Fortuin(下圖右)專注于深度學習和概率建模接口的相關研究,特別熱衷于遵循貝葉斯范式開發更具解釋性和數據效率的模型,并且嘗試利用更好的先驗和更有效的推斷技術來改進深度概率模型。
論文鏈接:
https://arxiv.org/pdf/2105.06868.pdf
引言
貝葉斯模型在數據分析和機器學習領域中應用廣泛。近年來,如何將模型與深度學習相結合也引發了研究者的興趣。貝葉斯建模的主要思想是使用一些觀察到的數據 D 來推斷模型參數θ的后驗分布,采用的貝葉斯定理如下:
?
其中 p(D|θ)是似然,p(D)是邊際似然(或證據),而 p(θ)是先驗,D * 是未見過的新數據。但相比先驗,人們的注意力更多地集中在后驗預測的性質上,比如預估以上等式的積分或使用邊際似然進行貝葉斯模型選擇。
在傳統的貝葉斯主義中,選擇先驗的方式是應使其能夠在看到任何數據之前準確反映出人們對參數θ的判斷。這是貝葉斯模型構建的最關鍵部分,也是最難的部分,因為將從業者的主觀判斷明確地映射到可處理的概率分布上通常不是一件易事。因此,在實踐中,選擇先驗通常被視為麻煩事,并且已經有許多人嘗試避免必須選擇客觀先驗、經驗貝葉斯或兩者相結合這樣的先驗。特別是在貝葉斯深度學習中,通常的做法是選擇看似「無信息」的先驗,比如標準高斯。
這種趨勢令人不安,因為選擇不好的先驗會對整個推斷工作造成不利影響。盡管選擇非信息性(或信息性較弱)的先驗通常是出于 Bernstein-von-Mises 定理的漸近一致性保證(asymptotic consistency guarantee),但因為其正則條件不滿足,該定理實際上在許多應用中并不成立。此外,在實際推斷的非漸近狀態中,先驗對后驗有很大的影響,通常將概率質量強加到參數空間的任意子空間上,例如在看似無害標準高斯先驗情況下的球形子空間。
更糟糕的是,先驗的錯誤肯定會破壞那些迫使首先使用貝葉斯推斷的特性。比如說,邊際似然在先驗的錯誤指定下可能變得毫無意義,導致在使用貝葉斯模型時選擇次優模型。甚至可以證明,當先驗的指定不正確時,就泛化性能而言,PAC - 貝葉斯推斷可以超過貝葉斯推斷。
因此,批判性地反思貝葉斯深度學習模型中的先驗選擇是必要的。本篇論文將著重討論標準非信息性先驗的替代選擇,并重新回顧審視(深度)高斯過程、變分自編碼器、貝葉斯神經網絡的現有先驗設計,最后簡要概述從先驗數據中學習先驗的方法。
先驗:深度高斯過程
高斯過程(Gaussian process, GP)在貝葉斯機器學習中有著很長的歷史,為其帶來了很多有用的特性,并且與貝葉斯深度學習有很深的聯系。下文將具體介紹如何通過深度神經網絡(DNN)對 GP 先驗進行參數化,如何堆疊 GP 以構建更深的模型,以及如何將深度神經網絡轉化為 GP 或由 GP 評估。
GP 先驗被 DNN 參數化
既然 GP 先驗由參數化函數確定,那么選擇 DNN 作為函數,自然是可行的。但是,因為大多數神經網絡函數實際上不會得到合適的核函數,所以必須仔細處理深度核函數。
從神經網絡中提取核函數的一種選擇是將網絡的最后一層用作特征空間,并將核函數定義為該空間中的內積,即。這導致了網絡特征空間中的貝葉斯線性回歸,也叫做貝葉斯最后一層(Bayesian last layer, BLL)模型。
開發深度核函數的另一種選擇是從基本核 k_base(·,·)開始,例如長度尺度為λ的徑向基函數(radial basis function, RBF)核 k_RBF(x, x′ ) = exp(?λ(x ? x′)^2) ,然后可以將此內核應用于 DNN 特征空間,從而產生內核:
如果選擇線性核函數 k_lin(x, x′) =<x, x′> 作為基礎核,則可以簡化至上面的 BLL 模型。然而,在選擇像 RBF 這樣的內核時,該模型仍然產生了無限維再現核 hilbert 空間,因此提供了不會縮至有限貝葉斯線性回歸的完整 GP。這些方法不僅可以產生非常有表現力的模型,而且還可以改善諸如對抗性魯棒性之類的屬性。
當使用深度均值函數代替深度核函數或結合使用時,只需采取較少的預防措施,因為任何函數實際上都是有效的 GP 均值函數。因此,神經網絡本身就可以被用作均值函數,而且 GP 中的深層均值函數已經與其他流行的學習范式相關,例如功能性的 PCA。
但是,與上面的深層核函數一樣,主要問題是如何選擇函數。由于 DNN 難以解釋,在查看任何數據之前選擇參數似乎是不可能完成的任務。因此,這些方法通常會與其他一些學習算法結合使用,基于一些目標函數來設置其參數。此外,關于一種特定類型的 GP 內核,即卷積內核,它本身并不是由神經網絡進行參數化的,而是受到卷積神經網絡(CNN)的啟發,從而提高了對于圖像的性能。
深度 GP 和神經網絡限制
既然 GP 可以與深度神經網絡結合,那么它們自然也可以用于自構建深度模型,比如深度 GP。與深層神經網絡類似,深度 GP 也是隨著深度增加而分布得更復雜。但與神經網絡不同,深度 GP 仍然包含了完全的貝葉斯處理。而與標準 GP 相比,深層 GP 還可以對大規模輸出分布建模,其中包括具有非高斯邊際的分布。為了增加靈活性,這些模型還可以與 GP 層之間的翹曲函數結合使用。此外還可以將它們與上述卷積 GP 內核結合使用,以產生與深層 CNN 相似的模型。
盡管這些模型似乎遠優于標準 GP,但仍付出了一定的靈活性作為代價:封閉形式的后驗推斷不再易于處理。這意味著必須使用近似推斷技術來估計后驗,例如變分推斷、期望傳播和攤銷推斷。一種非常流行的 GP 近似推斷技術是基于歸納點的,它們被選為訓練點或訓練域的子集。該技術還可以擴展到深度 GP 的推斷或由變異隨機特征的替代。
而與推斷技術相反,對于深度 GP 的先驗選擇并未得到充分的研究。雖然深度 GP 可以基于函數建模一個復雜的先驗,但就 m_ψi 和 k_ψi 而言,單層的先驗通常選擇得比較簡單。
將 GP 連接到 DNN 的另一種方法是通過神經網絡限制。由于具有單個隱藏層的貝葉斯神經網絡(BNN)和任何獨立的有限方差參數先驗 p(θ)誘導的函數空間先驗 p(f)收斂于無窮大的極限,且考慮到中心極限定理,GP 先驗的限制由下式給出:
先驗:變分自編碼器和貝葉斯神經網絡
除了 GP,另一種流行的貝葉斯深度學習模型是變分自編碼器(VAE)。這些貝葉斯潛變量模型假設一個生成過程,通過似然 p(x | z),其中觀察值 x 是從未觀察到的潛變量 z 生成的。VAE 通過在觀察數據上訓練的神經網絡進行參數化似然,由于此神經網絡的非線性特性可精確地推斷出后驗 p(z | x),因此可以使用由神經網絡進行參數化的變分近似值 q(z | x)對其進行推斷。接著通過優化證據下界(evidence lower bound, ELBO)訓練整個模型:
似然和近似后驗通常被選作高斯,而先驗則為標準高斯,即 p(z)= N(0, I)。接下來,作者在論文中具體討論了可以直接替代標準高斯模型的適當概率分布、需要更改架構的一些先驗,以及一個帶有特異結構和神經過程先驗的 VAE 模型。
貝葉斯神經網絡是通過貝葉斯推斷確定參數,并使用后驗預測進行預測的一種神經網絡模型。近年來,由于它們的不確定度校準特性,這些模型越來越受歡迎。盡管研究者針對這些模型提出了許多不同的先驗,但也有很多研究者認為基于參數的標準高斯先驗是足夠的,建模者的歸納偏差應通過架構選擇來表示。經過對小型網絡和簡單問題的初步研究,這種觀點得到了支持,但這些簡單問題并未找到有關高斯先驗誤定的確鑿證據。
然而,在最近的研究中,高斯先驗的充分性一直遭到質疑,特別是因為研究者發現了高斯先驗會引起冷后驗效應,而這種效應并不是由其他先驗引起的。遵循先驗錯誤指定的考量,作者建議考慮 BNN 的替代先驗并在論文中回顧了在權重空間和函數空間中定義的先驗,還展示了如何將這些思想擴展到神經網絡的(貝葉斯)合奏。
學習先驗
到目前為止,研究者已經探索了不同類型的分布和方法,以將先驗知識編碼為貝葉斯深度學習模型。但是,如果研究者沒有任何有用的先驗知識要如何編碼呢?因為 ML-II 優化和貝葉斯元學習思想原則上可以用于學習上面討論的大多數先驗知識的超參數,所以作者按照上面的結構,重新回顧探索了高斯過程、變分自編碼器、和貝葉斯神經網絡中的學習先驗。
最后,作者做出了總結:在貝葉斯模型中選擇良好的先驗對實現實際的理論和經驗屬性至關重要,包括不確定性估計、模型選擇、最佳決策支持。雖然貝葉斯深度學習的從業人員目前通常選擇各向同性的高斯(或類似的無信息)先驗,但是這些先驗通常是錯誤指定的,并且在推斷過程中可能導致一些意想不到的負面后果。另一方面,精心選擇的先驗可以提高性能,甚至可以實現新視角的應用程序。幸運的是,當下流行的貝葉斯深度學習模型有多種替代的先驗選擇,例如深度高斯過程、變分自編碼器、貝葉斯神經網絡。而且,在某些情況下,甚至可以僅從數據中學習到這些模型有用的先驗。
特別鳴謝
感謝 TCCI 天橋腦科學研究院對于 PaperWeekly 的支持。TCCI 關注大腦探知、大腦功能和大腦健康。
????
現在,在「知乎」也能找到我們了
進入知乎首頁搜索「PaperWeekly」
點擊「關注」訂閱我們的專欄吧
·
總結
以上是生活随笔為你收集整理的真的不值得重视吗?ETH Zurich博士重新审视贝叶斯深度学习先验的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 今日arXiv精选 | 9篇ICCV 2
- 下一篇: 北京银行信用卡有效期