机器学习笔记(九):应用机器学习的建议
目錄
1)Deciding what to try next
2)Evaluating a hypothesis
3)Model selection and training/validation/test sets
4)Diagnosing bias vs. variance
5)Regularization and bias/variance
6)Learning curves
7)Deciding what to try next
1)Deciding what to try next
我們對之前的線性回歸預測房價的算法進行了正則化,但是當我們預測新房子房價時,我們會發現意想不到的誤差,此時我們應該怎么做呢?
這就是我們接下來介紹的機器學習診斷算法:雖然會需要一點時間,但是會為我們開發學習算法節省大量時間。
2)Evaluating a hypothesis
下圖是一個過擬合的模型,對于新的數據集它的預測能力很差:
對于過擬合檢驗:常做的是分割數據集,分為訓練集和測試集。
對于線性回歸和邏輯回歸,我們計算它們的代價函數和誤分類比率。
3)Model selection and training/validation/test sets
這種方法是我們現在經常使用的,把數據集分成:訓練集,交叉驗證集,測試集。
接下來,我們分別計算不同模型對應的訓練誤差,交叉驗證誤差,測試誤差。選擇測試誤差最小的模型。
4)Diagnosing bias vs. variance
這一部分我們通過判斷高偏差或高方差來判斷模型是欠擬合還是過擬合。
我們通過將訓練集誤差和驗證集誤差繪制在一張圖上來判斷偏差和方差:
- 當訓練集誤差和交叉驗證集誤差近似時,高偏差/欠擬合。
- 當訓練集誤差遠小于交叉驗證集誤差時,高方差/過擬合。
5)Regularization and bias/variance
這一部分主要介紹正則化程度對模型誤差的影響。
我們同樣把訓練集誤差和交叉驗證集誤差與正則化參數繪制在一張圖上:
- 當較小時,訓練集誤差較小(過擬合),而交叉驗證集誤差大;
- 隨著增大,訓練集誤差不斷增加(欠擬合),而交叉驗證集先減小后增大;
6)Learning curves
學習曲線有助于我們判斷偏差還是方差問題,它是關于訓練集數量的曲線。
先看高偏差問題:增加訓練集數量對于高偏差問題沒什么幫助。
高方差問題:增加數據集數量有一定幫助。
7)Deciding what to try next
再來回顧我們第一講介紹的方法:看看他們的效果:
神經網絡模型可以如下考慮:
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的机器学习笔记(九):应用机器学习的建议的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: jetcar.exe - jetcar是
- 下一篇: Python开发常用工具库