机器学习笔记(十):机器学习系统的设计
目錄
1)Prioritizing what to work on:Spam classification example
2)Error analysis
3)Error metrics for skewed classes
4)Trading off precision and recall
5)Data for machine learning
下面將學(xué)習(xí)到在構(gòu)建大型機器學(xué)習(xí)系統(tǒng)時有用的方法,數(shù)學(xué)性不會很強,但是也很使用。來看一個垃圾郵件分類器。
1)Prioritizing what to work on:Spam classification example
首先我們構(gòu)建一個垃圾分類器:
我們接下來可以按照以下方法嘗試:
2)Error analysis
除了學(xué)習(xí)曲線外,誤差分析也是很有用的工具。構(gòu)建一個學(xué)習(xí)算法的推薦方法為:
3)Error metrics for skewed classes
類偏斜問題表現(xiàn)為我們的訓(xùn)練集中有非常多的同一類的實例,只是很少或沒有其他類的實例。來看我們最初的癌癥診斷的例子:
我們訓(xùn)練的邏輯回歸模型比我們非學(xué)習(xí)來的算法準(zhǔn)確率還低,此時誤差大小不能視為評判算法的依據(jù)。
我們要學(xué)習(xí)到兩個重要指標(biāo):準(zhǔn)確率和召回率:
準(zhǔn)確率:?
召回率:
4)Trading off precision and recall
還是以癌癥檢查的例子來說明情況:下圖顯示了我們?nèi)绾胃淖冮撝堤岣邷?zhǔn)確率和召回率:
但在實際中我們一般使用?F1值?來作為判別標(biāo)準(zhǔn):
5)Data for machine learning
下圖顯示了數(shù)據(jù)量大小對算法性能的影響:
下面介紹了如何解決高偏差(特征足夠多)和高方差問題(龐大訓(xùn)練集)的方法。
總結(jié)
以上是生活随笔為你收集整理的机器学习笔记(十):机器学习系统的设计的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python图书管理系统
- 下一篇: 油价要降了 加满一箱油少花12.5元!中