结合随机微分方程,多大Duvenaud团队提出无限深度贝叶斯神经网络
?作者?|?小舟、陳萍
來源?|?機(jī)器之心
來自多倫多大學(xué)和斯坦福大學(xué)的研究者開發(fā)了一種在連續(xù)深度貝葉斯神經(jīng)網(wǎng)絡(luò)中進(jìn)行近似推理的實(shí)用方法。
把神經(jīng)網(wǎng)絡(luò)的限制視為無限多個(gè)殘差層的組合,這種觀點(diǎn)提供了一種將其輸出隱式定義為常微分方程 ODE 的解的方法。連續(xù)深度參數(shù)化將模型的規(guī)范與其計(jì)算分離。雖然范式的復(fù)雜性增加了,但這種方法有幾個(gè)好處:(1)通過指定自適應(yīng)計(jì)算的容錯(cuò),可以以細(xì)粒度的方式用計(jì)算成本換取精度;(2)通過及時(shí)運(yùn)行動(dòng)態(tài) backward 來重建反向傳播所需中間狀態(tài)的激活函數(shù),可以使訓(xùn)練的內(nèi)存成本顯著降低。
另一方面,對(duì)神經(jīng)網(wǎng)絡(luò)的貝葉斯處理改動(dòng)了典型的訓(xùn)練 pipeline,不再執(zhí)行點(diǎn)估計(jì),而是推斷參數(shù)的分布。雖然這種方法增加了復(fù)雜性,但它會(huì)自動(dòng)考慮模型的不確定性——可以通過模型平均來對(duì)抗過擬合和改進(jìn)模型校準(zhǔn),尤其是對(duì)于分布外數(shù)據(jù)。
近日,來自多倫多大學(xué)和斯坦福大學(xué)的一項(xiàng)研究表明貝葉斯連續(xù)深度神經(jīng)網(wǎng)絡(luò)的替代構(gòu)造具有一些額外的好處,開發(fā)了一種在連續(xù)深度貝葉斯神經(jīng)網(wǎng)絡(luò)中進(jìn)行近似推理的實(shí)用方法。該論文的一作是多倫多大學(xué) Vector Institute 的本科學(xué)生 Winnie Xu,二作是 NeurIPS 2018 最佳論文的一作陳天琦,他們的導(dǎo)師 David Duvenaud 也是論文作者之一。
論文地址:
https://arxiv.org/pdf/2102.06559.pdf
項(xiàng)目地址:
https://github.com/xwinxu/bayesian-sde
具體來說,該研究考慮了無限深度貝葉斯神經(jīng)網(wǎng)絡(luò)每層分別具有未知權(quán)重的限制,提出一類稱為 SDE-BNN(SDE- Bayesian neural network )的模型。該研究表明,使用 Li 等人(2020)描述的基于可擴(kuò)展梯度的變分推理方案可以有效地進(jìn)行近似推理。
在這種方法中,輸出層的狀態(tài)由黑盒自適應(yīng)隨機(jī)微分方程(SDE 求解器計(jì)算,并訓(xùn)練模型以最大化變分下界。下圖將這種神經(jīng) SDE 參數(shù)化與標(biāo)準(zhǔn)神經(jīng) ODE 方法進(jìn)行了對(duì)比。這種方法保持了訓(xùn)練貝葉斯神經(jīng) ODE 的自適應(yīng)計(jì)算和恒定內(nèi)存成本。
??
無限深度貝葉斯神經(jīng)網(wǎng)絡(luò)(BNN)
標(biāo)準(zhǔn)離散深度殘差網(wǎng)絡(luò)可以被定義為以下形式的層的組合:
其中 t 是層索引,表示 t 層隱藏單元激活向量,輸入 h_0 = x,表示 t 層的參數(shù),在離散設(shè)置中該研究通過設(shè)置并將極限設(shè)為來構(gòu)建殘差網(wǎng)絡(luò)的連續(xù)深度變體。這樣產(chǎn)生一個(gè)微分方程,該方程將隱藏單元進(jìn)化描述為深度 t 的函數(shù)。由于標(biāo)準(zhǔn)殘差網(wǎng)絡(luò)每層使用不同的權(quán)重進(jìn)行參數(shù)化,因此該研究用 w_t 表示第 t 層的權(quán)重。此外該研究還引入一個(gè)超網(wǎng)絡(luò)(hypernetwork) f_w,它將權(quán)重的變化指定為深度和當(dāng)前權(quán)重的函數(shù)。然后將隱藏單元激活函數(shù)的進(jìn)化和權(quán)重組合成一個(gè)微分方程:
權(quán)重先驗(yàn)過程:該研究使用 Ornstein-Uhlenbeck (OU) 過程作為權(quán)重先驗(yàn),該過程的特點(diǎn)是具有漂移(drift)和彌散(diffusion)的 SDE:
權(quán)重近似后驗(yàn)使用另一個(gè)具有以下漂移函數(shù)的 SDE 隱式地進(jìn)行參數(shù)化:
然后該研究在給定輸入下評(píng)估了該網(wǎng)絡(luò)需要邊緣化權(quán)重和隱藏單元軌跡(trajectory)。這可以通過簡(jiǎn)單的蒙特卡羅方法來完成,從后驗(yàn)過程中采樣權(quán)重路徑 {w_t},并在給定采樣權(quán)重和輸入的情況下評(píng)估網(wǎng)絡(luò)激活函數(shù) {h_t}。這兩個(gè)步驟都需要求解一個(gè)微分方程,兩步可以通過調(diào)用增強(qiáng)狀態(tài) SDE 的單個(gè) SDE 求解器同時(shí)完成:
為了讓網(wǎng)絡(luò)擬合數(shù)據(jù),該研究最大化由無限維 ELBO 給出的邊緣似然(marginal likelihood)的下限:
采樣權(quán)重、隱藏激活函數(shù)和訓(xùn)練目標(biāo)都是通過一次調(diào)用自適應(yīng) SDE 求解器同時(shí)計(jì)算的。
減小方差的梯度估計(jì)
該研究使用 STL(sticking the landing) 估計(jì)器來替換 path 空間 KL 中的原始估計(jì)器以適應(yīng) SDE 設(shè)置:
等式 (12) 中的第二項(xiàng)是鞅(martingale),期望值為零。在之前的工作中,研究者僅對(duì)第一項(xiàng)進(jìn)行了蒙特卡羅估計(jì),但該研究發(fā)現(xiàn)這種方法不一定會(huì)減少梯度的方差,如下圖 4 所示。
因?yàn)樵撗芯刻岢龅慕坪篁?yàn)可以任意表達(dá),研究者推測(cè)如果參數(shù)化網(wǎng)絡(luò) f_w 的表達(dá)能力足夠強(qiáng),該方法可在訓(xùn)練結(jié)束時(shí)實(shí)現(xiàn)任意低的梯度方差。
圖 4 顯示了多個(gè)梯度估計(jì)器的方差,該研究將 STL 與「完全蒙特卡羅(Full Monte Carlo)」估計(jì)進(jìn)行了比較。圖 4 顯示,當(dāng)匹配指數(shù)布朗運(yùn)動(dòng)時(shí),STL 獲得的方差比其他方案低。下表 4 顯示了訓(xùn)練性能的改進(jìn)。
實(shí)驗(yàn)
該研究的實(shí)驗(yàn)設(shè)置如下表所示,該研究在 MNIST 和 CIFAR-10 上進(jìn)行了 toy 回歸、圖像分類任務(wù),此外他們還研究了分布外泛化任務(wù):
為了對(duì)比求解器與 adjoint 的反向傳播,研究者比較了固定和自適應(yīng)步長(zhǎng)的 SDE 求解器,并比較了 Li 等人提出的隨機(jī) adjoint 之間的比較, 圖 5 顯示了這兩種方法具有相似的收斂性:
1D 回歸
該研究首先驗(yàn)證了 SDE-BNN 在 1D 回歸問題上的表現(xiàn)。以彌散過程的樣本為條件,來自 1D SDE-BNN 的每個(gè)樣本都是從輸入到輸出的雙向映射。這意味著從 1D SDE-BNN 采樣的每個(gè)函數(shù)都是單調(diào)的。為了能夠?qū)Ψ菃握{(diào)函數(shù)進(jìn)行采樣,該研究使用初始化為零的 2 個(gè)額外維度來增加狀態(tài)。圖 2 顯示了模型在合成的非單調(diào) 1D 數(shù)據(jù)集上學(xué)習(xí)了相當(dāng)靈活的近似后驗(yàn)。
圖像分類
表 1 給出了圖像分類實(shí)驗(yàn)的結(jié)果。SDE-BNN 通常優(yōu)于基線,由結(jié)果可得雖然連續(xù)深度神經(jīng) ODE (ODEnet) 模型可以在標(biāo)準(zhǔn)殘差網(wǎng)絡(luò)上實(shí)現(xiàn)類似的分類性能,但校準(zhǔn)(calibration)較差。
圖 6a 展示了 SDE-BNN 的性能,圖 6b 顯示具有相似準(zhǔn)確率但比神經(jīng) ODE 校準(zhǔn)更好的結(jié)果。
表 1 用預(yù)期校準(zhǔn)誤差量化了模型的校準(zhǔn)。SDE-BNN 似乎比神經(jīng) ODE 和平均場(chǎng) ResNet 基線能更好地校準(zhǔn)。?
下圖 7 顯示了損壞測(cè)試集上相對(duì)于未損壞數(shù)據(jù)的誤差,表明隨著擾動(dòng)嚴(yán)重性級(jí)別的增加以及表 1 中總結(jié)的總體誤差度量,mCE 穩(wěn)步增加。在 CIFAR10 和 CIFAR10-C 上,SDE-BNN 和 SDE -BNN + STL 模型實(shí)現(xiàn)了比基線更低的整體測(cè)試誤差和更好的校準(zhǔn)。
與標(biāo)準(zhǔn)基線(ResNet32 和 MF ResNet32)相比,SDE-BNN 的絕對(duì)損壞誤差(CE)降低了約 4.4%。域外輸入的學(xué)習(xí)不確定性的有效性表明,盡管沒有在多種形式的損壞上進(jìn)行訓(xùn)練,但 SDE-BNN 對(duì)觀測(cè)擾動(dòng)也更加穩(wěn)健。
更多閱讀
#投 稿?通 道#
?讓你的文字被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)術(shù)熱點(diǎn)剖析、科研心得或競(jìng)賽經(jīng)驗(yàn)講解等。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
📝?稿件基本要求:
? 文章確系個(gè)人原創(chuàng)作品,未曾在公開渠道發(fā)表,如為其他平臺(tái)已發(fā)表或待發(fā)表的文章,請(qǐng)明確標(biāo)注?
? 稿件建議以?markdown?格式撰寫,文中配圖以附件形式發(fā)送,要求圖片清晰,無版權(quán)問題
? PaperWeekly 尊重原作者署名權(quán),并將為每篇被采納的原創(chuàng)首發(fā)稿件,提供業(yè)內(nèi)具有競(jìng)爭(zhēng)力稿酬,具體依據(jù)文章閱讀量和文章質(zhì)量階梯制結(jié)算
📬?投稿通道:
? 投稿郵箱:hr@paperweekly.site?
? 來稿請(qǐng)備注即時(shí)聯(lián)系方式(微信),以便我們?cè)诟寮x用的第一時(shí)間聯(lián)系作者
? 您也可以直接添加小編微信(pwbot02)快速投稿,備注:姓名-投稿
△長(zhǎng)按添加PaperWeekly小編
🔍
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
·
總結(jié)
以上是生活随笔為你收集整理的结合随机微分方程,多大Duvenaud团队提出无限深度贝叶斯神经网络的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: PyTorch多卡分布式训练:Distr
- 下一篇: 武汉科奇汽车传动系统怎么样