4.7 参数 vs 超参数-深度学习-Stanford吴恩达教授
| 4.6 前向和反向傳播 | 回到目錄 | 4.8 這和大腦有什么關系 |
參數 vs 超參數 (Parameters vs. Hyperparameters)
想要你的深度神經網絡起很好的效果,你還需要規(guī)劃好你的參數以及超參數。
什么是超參數?
比如算法中的learning rate α\alphaα (學習率)、iterations(梯度下降法循環(huán)的數量)、 LLL (隱藏層數目)、 n[l]n^{[l]}n[l] (隱藏層單元數目)、choice of activation function(激活函數的選擇)都需要你來設置,這些數字實際上控制了最后的參數 WWW 和 bbb 的值,所以它們被稱作超參數。
實際上深度學習有很多不同的超參數,之后我們也會介紹一些其他的超參數,如momentum、mini batch size、regularization parameters等等。
如何尋找超參數的最優(yōu)值?
走Idea—Code—Experiment—Idea這個循環(huán),嘗試各種不同的參數,實現模型并觀察是否成功,然后再迭代。
今天的深度學習應用領域,還是很經驗性的過程,通常你有個想法,比如你可能大致知道一個最好的學習率值,可能說 α=0.01\alpha=0.01α=0.01 最好,我會想先試試看,然后你可以實際試一下,訓練一下看看效果如何。然后基于嘗試的結果你會發(fā)現,你覺得學習率設定再提高到0.05會比較好。如果你不確定什么值是最好的,你大可以先試試一個學習率 α\alphaα ,再看看損失函數J的值有沒有下降。然后你可以試一試大一些的值,然后發(fā)現損失函數的值增加并發(fā)散了。然后可能試試其他數,看結果是否下降的很快或者收斂到在更高的位置。你可能嘗試不同的 α\alphaα 并觀察損失函數 JJJ 這么變了,試試一組值,然后可能損失函數變成這樣,這個值 α\alphaα 會加快學習過程,并且收斂在更低的損失函數值上(箭頭標識),我就用這個 α\alphaα 值了。
在前面幾頁中,還有很多不同的超參數。然而,當你開始開發(fā)新應用時,預先很難確切知道,究竟超參數的最優(yōu)值應該是什么。所以通常,你必須嘗試很多不同的值,并走這個循環(huán),試試各種參數。試試看5個隱藏層,這個數目的隱藏單元,實現模型并觀察是否成功,然后再迭代。這頁的標題是,應用深度學習領域,一個很大程度基于經驗的過程,憑經驗的過程通俗來說,就是試直到你找到合適的數值。
另一個近來深度學習的影響是它用于解決很多問題,從計算機視覺到語音識別,到自然語言處理,到很多結構化的數據應用,比如網絡廣告或是網頁搜索或產品推薦等等。我所看到過的就有很多其中一個領域的研究員,這些領域中的一個,嘗試了不同的設置,有時候這種設置超參數的直覺可以推廣,但有時又不會。所以我經常建議人們,特別是剛開始應用于新問題的人們,去試一定范圍的值看看結果如何。然后下一門課程,我們會用更系統(tǒng)的方法,用系統(tǒng)性的嘗試各種超參數取值。然后其次,甚至是你已經用了很久的模型,可能你在做網絡廣告應用,在你開發(fā)途中,很有可能學習率的最優(yōu)數值或是其他超參數的最優(yōu)值是會變的,所以即使你每天都在用當前最優(yōu)的參數調試你的系統(tǒng),你還是會發(fā)現,最優(yōu)值過一年就會變化,因為電腦的基礎設施,CPU或是GPU可能會變化很大。所以有一條經驗規(guī)律可能每幾個月就會變。如果你所解決的問題需要很多年時間,只要經常試試不同的超參數,勤于檢驗結果,看看有沒有更好的超參數數值,相信你慢慢會得到設定超參數的直覺,知道你的問題最好用什么數值。
這可能的確是深度學習比較讓人不滿的一部分,也就是你必須嘗試很多次不同可能性。但參數設定這個領域,深度學習研究還在進步中,所以可能過段時間就會有更好的方法決定超參數的值,也很有可能由于CPU、GPU、網絡和數據都在變化,這樣的指南可能只會在一段時間內起作用,只要你不斷嘗試,并且嘗試保留交叉檢驗或類似的檢驗方法,然后挑一個對你的問題效果比較好的數值。
近來受深度學習影響,很多領域發(fā)生了變化,從計算機視覺到語音識別到自然語言處理到很多結構化的數據應用,比如網絡廣告、網頁搜索、產品推薦等等;有些同一領域設置超參數的直覺可以推廣,但有時又不可以,特別是那些剛開始研究新問題的人們應該去嘗試一定范圍內的結果如何,甚至那些用了很久的模型得學習率或是其他超參數的最優(yōu)值也有可能會改變。
在下個課程我們會用系統(tǒng)性的方法去嘗試各種超參數的取值。有一條經驗規(guī)律:經常試試不同的超參數,勤于檢查結果,看看有沒有更好的超參數取值,你將會得到設定超參數的直覺。
課程PPT
| 4.6 前向和反向傳播 | 回到目錄 | 4.8 這和大腦有什么關系 |
總結
以上是生活随笔為你收集整理的4.7 参数 vs 超参数-深度学习-Stanford吴恩达教授的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 4.6 前向和反向传播-深度学习-Sta
- 下一篇: 4.8 这和大脑有什么关系-深度学习第一