一文详解超参数调优方法
?PaperWeekly 原創(chuàng) ·?作者|王東偉
單位|Cubiz
研究方向|深度學(xué)習(xí)
本文介紹超參數(shù)(hyperparameter)的調(diào)優(yōu)方法。
神經(jīng)網(wǎng)絡(luò)模型的參數(shù)可以分為兩類:
模型參數(shù),在訓(xùn)練中通過梯度下降算法更新;
超參數(shù),在訓(xùn)練中一般是固定數(shù)值或者以預(yù)設(shè)規(guī)則變化,比如批大小(batch size)、學(xué)習(xí)率(learning rate)、正則化項(xiàng)系數(shù)(weight decay)、核函數(shù)中的 gamma 等。
超參數(shù)調(diào)優(yōu)的目標(biāo)通常是最小化泛化誤差(generalization error),也可以根據(jù)具體任務(wù)自定義其他優(yōu)化目標(biāo)。泛化誤差是指預(yù)測(cè)未知樣本得到的誤差,通常由驗(yàn)證集得到,關(guān)于驗(yàn)證集可以參閱?Cross-validation (statistics). Wikipedia.。
調(diào)優(yōu)的方法如網(wǎng)格搜索(grid search)、隨機(jī)搜索(random search)、貝葉斯優(yōu)化(bayesian optimization),是比較常用的算法,下文將作介紹。其他算法如基于梯度的優(yōu)化(gradient-based optimization)、受啟發(fā)于生物學(xué)的進(jìn)化算法(evolution strategy)等,讀者可以自行了解。
網(wǎng)格搜索 Grid search
網(wǎng)格搜索就是遍歷所有可能的超參數(shù)組合,找到能得到最佳性能(比如最小化泛化誤差)的超參數(shù)組合,但是由于一次訓(xùn)練的計(jì)算代價(jià)很高,搜索區(qū)間通常只會(huì)限定于少量的離散數(shù)值,以下用一段偽代碼說明:
def?train(acf,?wd,?lr):優(yōu)化目標(biāo)函數(shù)得到模型M由驗(yàn)證集得到泛化誤差ereturn?elearning_rate?=?[0.0001,?0.001,?0.01,?0.1] weight_decay?=?[0.01,?0.1,?1] activation?=?['ReLU',?'GELU',?'Swish']optimum?=?{'error':?1e10}#?grid?search for?acf?in?activation:for?wd?in?weight_decay:for?lr?in?learning_rate:error?=?train(acf,?wd,?lr)if?error?<?optimum['error']:optimum['error']?=?erroroptimum['param']?=?{'acf':?acf,'wd':?wd,'lr':?lr}隨機(jī)搜索 Random search
隨機(jī)搜索在預(yù)先設(shè)定的定義域內(nèi)隨機(jī)選取超參數(shù)組合。實(shí)驗(yàn)證明隨機(jī)搜索比網(wǎng)格搜索更高效,主要原因是隨機(jī)搜索可以搜索連續(xù)數(shù)值并且可以設(shè)定更大的搜索空間,因此有幾率得到更優(yōu)的模型。另外,對(duì)于僅有少數(shù)超參數(shù)起決定性作用的情況,隨機(jī)搜索對(duì)于重要參數(shù)的搜索效率更高。
如圖 1,假設(shè)參數(shù) 2 幾乎對(duì)優(yōu)化目標(biāo)沒有影響,而參數(shù) 1 很重要,在同樣進(jìn)行 9 次采樣的搜索中,網(wǎng)格搜索實(shí)際上僅對(duì)參數(shù) 1 采樣了 3 次,而隨機(jī)搜索為 9 次。關(guān)于隨機(jī)搜索的實(shí)驗(yàn)可以查閱論文 Random Search for Hyper-Parameter Optimization. James Bergstra, Yoshua Bengio. 2012.。
▲ 圖1
貝葉斯優(yōu)化 Bayesian optimization
給定一組超參數(shù),為了計(jì)算相應(yīng)的模型泛化誤差,我們需要進(jìn)行一次完整的模型訓(xùn)練,對(duì)于大型的深度學(xué)習(xí)模型可能需要花上幾個(gè)小時(shí)的時(shí)間。注意到網(wǎng)格搜索和隨機(jī)搜索中,不同的超參數(shù)采樣是相互獨(dú)立的,一個(gè)直接的想法是,能否充分利用已采樣數(shù)據(jù)來決定下一次采樣,以提高搜索效率(或者說減少采樣次數(shù))。
早在 1960 年,就有科學(xué)家 Danie G. Krige 用類似的方法用于金礦分布的估計(jì),他用已開采的少數(shù)礦點(diǎn)對(duì)金礦分布進(jìn)行建模,后來這類方法被稱為 Kriging 或高斯過程回歸(Gaussian process regression, GPR)。
本文將介紹基于高斯過程的貝葉斯優(yōu)化,其他類型的貝葉斯優(yōu)化算法將在文末作簡(jiǎn)要總結(jié)。此外,本文關(guān)于 GPR 的數(shù)學(xué)原理部分參考了 MIT 出版的?Gaussian Processes for Machine Learning. C. E. Rasmussen, C. K. I. Williams. 2006(下文簡(jiǎn)稱GPML),讀者可自行查閱。
3.1 算法簡(jiǎn)介
超參數(shù)優(yōu)化可以視為求解泛化誤差的極值點(diǎn):
其中, 為訓(xùn)練集和驗(yàn)證集,λ 為帶參數(shù)模型。
以下為了方便討論并且與相關(guān)領(lǐng)域的論文保持一致,我們用 表示待優(yōu)化的目標(biāo)函數(shù),并且假設(shè)我們的目標(biāo)是求極大值:
貝葉斯優(yōu)化的算法如下:
可以看到,貝葉斯優(yōu)化每次迭代都充分利用歷史采樣信息得到新的采樣點(diǎn),采樣函數(shù) 的目標(biāo)是讓新的采樣點(diǎn)盡可能接近極值點(diǎn),因此,貝葉斯優(yōu)化有可能以更少的采樣得到優(yōu)化結(jié)果。
GP 模型可以理解為函數(shù),不過其對(duì)于未知輸入 的預(yù)測(cè)不是一個(gè)確定的數(shù)值,而是一個(gè)概率分布。對(duì)于給定的 , 將得到正態(tài)分布的均值 μ 和方差 σ,也就是說, 將給出目標(biāo)函數(shù)值 的概率分布,即μσ。
圖 2 為 3 次采樣后(也就是已知樣本數(shù)量為 3)GP 模型擬合結(jié)果的可視化,樣本輸入為 1 維,其中黑色曲線為均值 μ,藍(lán)色區(qū)域?yàn)橐粋€(gè)標(biāo)準(zhǔn)差的置信區(qū)間。
▲ 圖2,源:https://arxiv.org/abs/1012.2599
3.2 高斯過程
具體地,我們假設(shè)隨機(jī)變量集合 為高斯過程,其由均值函數(shù)(mean function) 和協(xié)方差函數(shù)(covariance function) 定義:
其中:
通常我們假設(shè)均值函數(shù)為常數(shù) 。協(xié)方差函數(shù)的常見選擇是平方指數(shù)(squared exponential,SE)函數(shù),也叫高斯核:
容易發(fā)現(xiàn),上述協(xié)方差函數(shù)描述了不同輸入之間的距離,或者說相似性(similarity)。對(duì)于回歸或者分類問題,一個(gè)合理的假設(shè)是,距離較近的輸入 x 有相近的目標(biāo)函數(shù)值(或者類別標(biāo)簽)y,比如在分類問題中,距離測(cè)試樣本更近的訓(xùn)練樣本將提供更多關(guān)于測(cè)試樣本類別的信息。可以說,協(xié)方差函數(shù)“編碼”了我們對(duì)目標(biāo)函數(shù)的假設(shè)。
現(xiàn)在,假如我們有了一些觀測(cè)數(shù)據(jù) ,其中,。令 ,根據(jù)高斯過程的性質(zhì), 和測(cè)試樣本 服從聯(lián)合高斯分布:
其中, 是元素值全為 1 的向量。 為格萊姆矩陣(Gram matrix)。
可以證明,對(duì)于服從聯(lián)合高斯分布的隨機(jī)向量 和 ,
有:
因此:
到這里,我們幾乎完成了貝葉斯優(yōu)化的 GP 模型擬合部分,接下來,還需要作一些調(diào)整。
3.3 觀測(cè)值噪聲
在實(shí)際的項(xiàng)目中,目標(biāo)函數(shù)的觀測(cè)值 通常帶有隨機(jī)噪聲 ?,即:
一般來說,我們可以假設(shè)噪聲服從零均值高斯分布,?σ,并進(jìn)一步假設(shè)不同觀測(cè)樣本的噪聲獨(dú)立同分布,因此對(duì)于帶噪聲的觀測(cè)樣本,其關(guān)于協(xié)方差函數(shù)的先驗(yàn)變成:
注意到我們?cè)黾恿藚?shù) σ,表示目標(biāo)函數(shù)的方差。
容易得到:
其中, 為單位矩陣,,σ,σ。
進(jìn)一步得到:
3.4 GP模型的超參數(shù)
注意到,以上關(guān)于 概率分布的預(yù)測(cè)包含參數(shù) σσ,我們稱之為 GP 模型的超參數(shù)。需要指出的是,GP 模型是一種非參數(shù)(non-parametric)模型(這里的參數(shù)應(yīng)該類比神經(jīng)網(wǎng)絡(luò)的權(quán)重和偏置),超參數(shù)是獨(dú)立于模型擬合過程的自由參數(shù)。
回顧對(duì)于目標(biāo)函數(shù) 的先驗(yàn)假設(shè):
在無觀測(cè)數(shù)據(jù)的情況下,符合該先驗(yàn)的函數(shù)構(gòu)成一個(gè)函數(shù)集合。通過多元高斯分布采樣(參閱[GPML, Appendix A, A.2]),我們可以得到 σ 時(shí), 關(guān)于 的一種采樣結(jié)果(考慮到可視化的便利性, 為 1 維),并由插值方法得到函數(shù)曲線,如圖 3:
▲圖3
可以看到 l 與采樣函數(shù)隨著 變化的劇烈程度有關(guān)。關(guān)于其他超參數(shù)如何影響 GP 模型的探討,請(qǐng)參閱 [GPML, Chapter 5]。
通過最大化邊緣似然(marginal likelihood),可以得到 GP 模型超參數(shù)的最優(yōu)值,通常稱該方法為極大似然估計(jì)(maximum likelihood estimate, MLE)。為觀測(cè)數(shù)據(jù), 之所以被稱為邊緣似然來源于其積分表達(dá)式:
我們可以通過高斯分布的性質(zhì)得到上述積分結(jié)果,不過我們已經(jīng)從上文得到觀測(cè)值服從高斯分布:
即:
取 log 得到:
其中,為矩陣行列式,σ。
可以看到 僅僅取決于均值常數(shù) ,矩陣 的參數(shù) 和隨機(jī)噪聲 σ。我們把 σ 統(tǒng)一表示為 ,其中? 表示?。由相關(guān)的矩陣求導(dǎo)公式(參閱 [GPML, Appendix A, A.3]),容易求得 │ 關(guān)于 的梯度:
其中,,。
此外,容易得到:
其中,, 表示第 列的列向量。
接下來我們可以通過類似梯度上升的優(yōu)化算法得到最優(yōu)參數(shù)值。
其他 GP 模型的超參數(shù)優(yōu)化方法,如極大后驗(yàn)估計(jì)(maximum a posteriori, MAP)和完全貝葉斯估計(jì)(fully Bayesian) 可參閱 A Tutorial on Bayesian Optimization. Peter I. Frazier. 2018.。
3.5 協(xié)方差函數(shù)
不同的協(xié)方差函數(shù)本質(zhì)上隱含了對(duì)目標(biāo)函數(shù)性質(zhì)的不同假設(shè)。如果協(xié)方差函數(shù)是關(guān)于 的函數(shù),那么它具有平移不變性,我們稱它是平穩(wěn)協(xié)方差函數(shù)(stationary covariance function),進(jìn)一步,如果是關(guān)于 的函數(shù),則該函數(shù)具有各向同性(isotropic)??梢?#xff0c;SE 函數(shù)是平穩(wěn)的且各向同性的。
對(duì)于完全取決于內(nèi)積 的函數(shù),我們稱之為內(nèi)積協(xié)方差函數(shù)(dot product covariance function),它具有旋轉(zhuǎn)不變形,但不是平穩(wěn)的。一個(gè)內(nèi)積協(xié)方差函數(shù)的例子:
平滑性(smoothness)。隨機(jī)過程的平滑性由均方可微性(mean square differentiability)決定,比如,SE 函數(shù)對(duì)應(yīng)的高斯過程是無限均方可微的。關(guān)于均方導(dǎo)數(shù)、均方可微的定義你可以自行了解。
以下介紹幾個(gè)常見的平穩(wěn)協(xié)方差函數(shù)形式。為了簡(jiǎn)潔,令 。
a. 伽馬指數(shù)函數(shù)(γ-exponential covariance function)
除了 (相當(dāng)于 SE)以外,它是非均方可微的。圖4展示了 時(shí)的采樣。
▲ 圖4b. 馬頓函數(shù)(The Mate?rn class of covariance functions)
其中,ν 為修正貝塞爾函數(shù)(modified Bessel function),ν 為伽瑪函數(shù)(gamma function)。圖 5 展示了 ν 時(shí)的采樣。
▲?圖5
馬頓函數(shù)在 ν 均方不可微,而在 ν 時(shí)為高階均方可微。在一些論文中建議用 ν 的馬頓函數(shù)作為先驗(yàn),它是二階均方可微的,具有以下形式:
c. 二次有理函數(shù)(rational quadratic covariance function)
圖6展示了 時(shí)的采樣。
▲?圖6
以上協(xié)方差函數(shù)還有各向異性(anisotropic)的版本,可以通過替換 得到, 為對(duì)角矩陣。注意到各向同性的 SE 函數(shù)只有一個(gè)超參數(shù) ,其各向異性版本則有 個(gè)超參數(shù), 為 的維度。
3.6 采樣函數(shù)
現(xiàn)在我們已經(jīng)可以根據(jù)已有觀測(cè)數(shù)據(jù) 得到一個(gè)用于預(yù)測(cè)新樣本的 GP 模型 ,接下來我們考慮采樣函數(shù)(acquisition function)的部分。采樣函數(shù)的作用是讓每一次采樣都盡可能接近目標(biāo)函數(shù)的極大值/極小值,以此提升極值點(diǎn)搜索效率。具體地,我們用 表示給定 GP 模型的采樣函數(shù),對(duì)于目標(biāo)函數(shù)的下一次采樣:
GP 模型給出的是目標(biāo)函數(shù)的均值 μ 和方差 σ,一個(gè)直接的策略是,選擇更大概率比當(dāng)前觀測(cè)數(shù)據(jù)的目標(biāo)函數(shù)值更大的點(diǎn)(假設(shè)我們的目標(biāo)是尋找極大值),令 為當(dāng)前觀測(cè)數(shù)據(jù)的最大值,可以得到采樣函數(shù):
其中, 是標(biāo)準(zhǔn)正態(tài)累積分布函數(shù)。
▲?圖7,源:https://arxiv.org/abs/1012.2599
通過分析可知,采樣函數(shù) 傾向于以很高的概率略大于 的點(diǎn),而不是以較低的概率大于 更多的點(diǎn);前者更側(cè)重以更高的把握取得提升(exploitation),后者側(cè)重于探索高風(fēng)險(xiǎn)高收益的區(qū)域(exploration)。過于強(qiáng)調(diào) exploitation 會(huì)導(dǎo)致優(yōu)化過程陷入局部極值點(diǎn),強(qiáng)調(diào) exploration 則可能導(dǎo)致優(yōu)化目標(biāo)一直無法得到提升。因此采樣函數(shù)的主要設(shè)計(jì)原則就是平衡 exploitation 和 exploration。以下列出幾個(gè)常見的采樣函數(shù)。
a. Probability of improvement (PI)
上述公式由 得到, 可以控制 exploration 的程度。論文作者建議對(duì)參數(shù) 建立一個(gè)規(guī)劃表,在早期采樣中設(shè)置高一些以強(qiáng)調(diào) exploration,然后逐漸調(diào)低數(shù)值至零。
b. Expected improvement (EI)
其中, 是標(biāo)準(zhǔn)高斯分布的概率密度函數(shù)。EI 通過分析采樣值提升的數(shù)學(xué)期望 得到, 同樣用于平衡 exploitation-exploration,相關(guān)論文通過實(shí)驗(yàn)表明 可以在幾乎所有實(shí)驗(yàn)案例中取得不錯(cuò)的表現(xiàn)。
c. Upper confidence bound (UCB & GP-UCB)
UCB 由體現(xiàn)預(yù)期收益的部分 μ 和體現(xiàn)風(fēng)險(xiǎn)的部分 κσ 構(gòu)成,并通過參數(shù) κ 控制 exploration。
GP-UCB的 隨采樣進(jìn)度 t 而變化,在原論文中實(shí)驗(yàn)采用的公式是:
實(shí)驗(yàn)中 δ。 表示對(duì) 的定義域 進(jìn)行離散化取值得到的點(diǎn)數(shù)量,比如對(duì)于 1 維的情況,,每隔 取一個(gè) 值,則 。論文還提到在實(shí)驗(yàn)中通過對(duì) 縮小 5 倍,可以獲得性能提升 Gaussian Process Optimization in the Bandit Setting: No Regret and Experimental Design. Niranjan Srinivas, Andreas Krause, Sham M. Kakade, Matthias Seeger. 2009.。
總結(jié)
協(xié)方差函數(shù)的選擇。SE 函數(shù)是最常用的,但是因?yàn)榛?SE 的高斯過程是無限均方可微的,可見 SE 隱含了對(duì)目標(biāo)函數(shù)平滑性的極端假設(shè),因此有論文建議用 ν 的馬頓函數(shù) Practical Bayesian Optimization of Machine Learning Algorithms. Jasper Snoek, Hugo Larochelle, Ryan P. Adams. 2012.。
均值函數(shù)。常數(shù)是比較常見的均值函數(shù)設(shè)置,如果目標(biāo)函數(shù)可能有某種變化趨勢(shì),可以考慮采用參數(shù)化的均值函數(shù),形如 A Tutorial on Bayesian Optimization. Peter I. Frazier. 2018.,或者基于概率模型的方法[GPML, Chapter 2]。
采樣函數(shù)的選擇。對(duì)于選擇哪個(gè)采樣函數(shù)目前沒有明確的規(guī)則,有論文提出用組合采樣函數(shù)的方法可以得到比單獨(dú)使用更好的實(shí)驗(yàn)表現(xiàn),參閱 Portfolio Allocation for Bayesian Optimization. Eric Brochu, Matthew W. Hoffman, Nando de Freitas. 2010.。其他采樣函數(shù),如 knowledge-gradient The Knowledge-Gradient Policy for Correlated Normal Beliefs. Peter Frazier, Warren Powell, Savas Dayanik. 2008.,entropy search (ES) Entropy Search for Information-Efficient Global Optimization. Philipp Hennig, Christian J. Schuler. 2012.,predictive entropy search (PES) Predictive Entropy Search for Efficient Global Optimization of Black-box Functions. José Miguel Hernández-Lobato, Matthew W. Hoffman, Zoubin Ghahramani. 2014.,結(jié)合 fully Bayesian 的GP EI MCMC Practical Bayesian Optimization of Machine Learning Algorithms. Jasper Snoek, Hugo Larochelle, Ryan P. Adams. 2012.,提升采樣函數(shù)效率的 mixture cross-entropy algorithm Surrogating the surrogate: accelerating Gaussian-process-based global optimization with a mixture cross-entropy algorithm. R ?emi Bardenet, Bal ?azs K ?egl. 2010.。
其他貝葉斯優(yōu)化算法。采用隨機(jī)森林建模的 Sequential Model-based Algorithm Configuration (SMAC) Sequential Model-Based Optimization for General Algorithm Configuration. Frank Hutter, Holger H. Hoos, Kevin Leyton-Brown. 2011.,更適合高維度、離散化、超參數(shù)間有條件依賴的 Tree Parzen Estimator (TPE) Algorithms for Hyper-Parameter Optimization. James Bergstra, R ?emi Bardenet, Yoshua Bengio, Bal ?azs K ?egl. 2011.,以及提升 GP 模型計(jì)算效率的 SPGPs 和 SSGPs Taking the Human Out of the Loop: A Review of Bayesian Optimization. Bobak Shahriari, Kevin Swersky, Ziyu Wang, Ryan P. Adams, Nando de Freitas. 2016.。
最新的進(jìn)展。2018年一篇關(guān)于貝葉斯優(yōu)化的總結(jié)性論文 A Tutorial on Bayesian Optimization. Peter I. Frazier. 2018.,比較新的超參數(shù)優(yōu)化算法 Hyperband Hyperband: A Novel Bandit-Based Approach to Hyperparameter Optimization. Lisha Li, Kevin Jamieson, Giulia DeSalvo, Afshin Rostamizadeh, Ameet Talwalkar. 2017.,結(jié)合了TPE和Hyperband的BOHB BOHB: Robust and Efficient Hyperparameter Optimization at Scale. Stefan Falkner, Aaron Klein, Frank Hutter. 2018.,Hyperband 和 BOHB 代碼實(shí)現(xiàn) HpBandSter. 2018.。
附錄:部分算法的Python代碼示例
a. 多元高斯分布采樣。原理參閱[GPML, Appendix A, A.2]。
from?matplotlib?import?pyplot?as?plt import?numpy?as?np#?SE協(xié)方差函數(shù) kernel_se?=?np.vectorize(lambda?x1,?x2,?l:?np.exp(-(x1?-?x2)?**?2?/?(2?*?l?**?2)))def?sample_se(x,?l,?mean=0):#?x為numpy數(shù)組,e.g.?x?=?np.arange(-5,?5,?0.05)x1,?x2?=?np.meshgrid(x,?x)n?=?len(x)sigma?=?kernel_se(x1,?x2,?l)?+?np.identity(n)?*?0.000000001L?=?np.linalg.cholesky(sigma)u?=?np.random.randn(n)y?=?mean?+?L?@?ureturn?yc?=?['red',?'green',?'blue'] l?=?[3,?1,?0.3]for?i?in?range(len(l)):x?=?np.arange(-5,?5,?0.05)y?=?sample_se(x,?l[i])plt.plot(x,?y,?c=c[i],?linewidth=1,?label='l=%.1f'?%?l[i])plt.xlabel('input,?x') plt.ylabel('output,?f(x)') plt.legend(loc='best') plt.show()output:b. 由觀測(cè)數(shù)據(jù)集(X, Y)得到新樣本的均值 和方差 。
output:
c. 貝葉斯優(yōu)化示例。
output:
參考文獻(xiàn)
[1] Random Search for Hyper-Parameter Optimization. James Bergstra, Yoshua Bengio. 2012.?
[2] Gaussian Processes for Machine Learning. C. E. Rasmussen, C. K. I. Williams. 2006.?
[3] A Tutorial on Bayesian Optimization. Peter I. Frazier. 2018.?
[4] Gaussian Process Optimization in the Bandit Setting: No Regret and Experimental Design. Niranjan Srinivas, Andreas Krause, Sham M. Kakade, Matthias Seeger. 2009.?
[5] Practical Bayesian Optimization of Machine Learning Algorithms. Jasper Snoek, Hugo Larochelle, Ryan P. Adams. 2012.?
[6] A Tutorial on Bayesian Optimization. Peter I. Frazier. 2018.?
[7] Portfolio Allocation for Bayesian Optimization. Eric Brochu, Matthew W. Hoffman, Nando de Freitas. 2010.?
[8] The Knowledge-Gradient Policy for Correlated Normal Beliefs. Peter Frazier, Warren Powell, Savas Dayanik. 2008.?
[9] Entropy Search for Information-Efficient Global Optimization. Philipp Hennig, Christian J. Schuler. 2012.?
[10] Predictive Entropy Search for Efficient Global Optimization of Black-box Functions. José Miguel Hernández-Lobato, Matthew W. Hoffman, Zoubin Ghahramani. 2014.?
[11] Practical Bayesian Optimization of Machine Learning Algorithms. Jasper Snoek, Hugo Larochelle, Ryan P. Adams. 2012.?
[12] Surrogating the surrogate: accelerating Gaussian-process-based global optimization with a mixture cross-entropy algorithm. R ?emi Bardenet, Bal ?azs K ?egl. 2010.?
[13] Sequential Model-Based Optimization for General Algorithm Configuration. Frank Hutter, Holger H. Hoos, Kevin Leyton-Brown. 2011.?
[14] Algorithms for Hyper-Parameter Optimization. James Bergstra, R ?emi Bardenet, Yoshua Bengio, Bal ?azs K ?egl. 2011.?
[15] Taking the Human Out of the Loop: A Review of Bayesian Optimization. Bobak Shahriari, Kevin Swersky, Ziyu Wang, Ryan P. Adams, Nando de Freitas. 2016.?
[16] A Tutorial on Bayesian Optimization. Peter I. Frazier. 2018.?
[17] Hyperband: A Novel Bandit-Based Approach to Hyperparameter Optimization. Lisha Li, Kevin Jamieson, Giulia DeSalvo, Afshin Rostamizadeh, Ameet Talwalkar. 2017.?
[18] BOHB: Robust and Efficient Hyperparameter Optimization at Scale. Stefan Falkner, Aaron Klein, Frank Hutter. 2018.?
[19] A Tutorial on Bayesian Optimization of Expensive Cost Functions, with Application to Active User Modeling and Hierarchical Reinforcement Learning. Eric Brochu, Vlad M. Cora, Nando de Freitas. 2010.?
[20] Cross-validation (statistics). Wikipedia.?
[21] Markov chain Monte Carlo. Wikipedia.?
更多閱讀
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來。
?????來稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的一文详解超参数调优方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 失地保险每月领多少钱 如何办理失地保险手
- 下一篇: 年末最大AI盛典!2020深度学习开发者