如何在机器学习项目中使用统计方法的示例
摘要:?在本文中,將通過十個實例介紹在機器學習項目中起關鍵作用的統計學方法。
統計學和機器學習是兩個密切相關的領域。兩者的界限有時非常模糊,例如有一些明顯屬于統計學領域的方法可以很好地處理機器學習項目中的問題。事實上,機器學習預測建模項目必須通過統計學方法才能有效的進行。
在本文中,我們將通過實例介紹一些在預測建模問題中起關鍵作用的統計學方法。這將證明,統計學的有效知識對解決預測建模問題是必不可少的。
?
1、問題框架
?
在預測建模問題中,影響最大的可能就是問題框架了。它要對問題類型做不同的選擇,例如選擇回歸或分類,以及問題的輸入輸出的結構和類型。
問題框架并不總是顯而易見的。對于該領域的初入門者,需要對領域的觀察發現結果進行深入研究。而對于那些總是從傳統角度看待問題的領域專家來說,則需要從多角度考慮數據。
在構思問題框架時統計學方法能夠幫助探索數據,包括:
·探索性數據分析:通過總結和可視化探索數據的ad hoc視圖。
·數據挖掘:自動發現數據中的結構化關系和模式。
?
2、數據理解
?
數據理解意味著要對變量的分布和變量之間的關系有一個深入的了解。這些知識有些來自領域的專業知識,或者需要專業知識來解釋。然而,不論是領域專家還是新手都是從這個領域的觀察資料中獲益。
統計方法的兩大分支可用于幫助理解數據:
·匯總統計:該方法使用統計量總結變量之間的分布和關系。
·數據可視化:該方法使用可視化方法(如圖解、散點圖、曲線圖)來總結變量之間的分布和關系。
?
3、數據清理
?
通過直接觀察發現的成果,往往不能作為最原始的數據。因為盡管數據是數字化的,它還是會受到進程的影響損害數據保真度,并且反過來這些數據還會對下游進程或模型造成影響。
一些例子包括:
·數據損壞。
·數據錯誤。
·數據丟失。
識別和修復數據問題的過程被稱為數據清理。
統計學中有些方法可用來進行數據清理,例如:
·異常點檢測:識別分布中遠離預期值的異常值。
·歸責:修復或填充觀察結果中的損壞值或缺失值。
?
4、數據選擇
?
在建模時,并非所有的觀察值或所有的變量都是相關的。
將數據范圍不斷縮小,直到剩余元素對預測結果最有效的過程稱為數據選擇。
用于數據選擇的兩種統計方法為:
·數據樣本:系統地從較大數據集中創建小的具有代表性的樣本。
·特征選擇:自動識別與輸出結果最相關的變量。
?
5、數據準備
?
通常數據是不能直接用于建模的。所以為了匹配已選好的問題框架或學習算法,要對數據進行一些轉換來改變數據的形狀或結構。
可使用以下統計方法進行數據準備:
·擴展:如標準化、規范化等方法。
·編碼:類似整數編碼和熱編碼的方法。
·變換:類似Box-Cox方法那樣的功率轉換方法。
?
6、模型評估
?
預測建模問題的關鍵是評估學習方法,當在訓練模型中對沒見過的數據進行預測時,需要對模型的技能進行評估。這種訓練和評估預測模型的過程稱為實驗設計。
·實驗設計:該方法能夠通過設計系統實驗來比較獨立變量對輸出結果的影響,如機器學習算法的選擇對預測精度的影響。
有些實驗設計的方法可以重新采樣數據集,從而更經濟的使用數據來預估模型技能。
·重采樣方法:為了訓練和評估預測模型,系統地將數據集分成子集的方法。
?
7、模型配置
?
一個給定的機器學習算法通常具有一套超參數,通過超參數實現對特定問題量身定制學習方法。超參數的配置本質上是經驗性的而不是分析性的,所以需要大量實驗來評估不同超參數值對模型技能的影響。
使用統計的兩個子領域之一對不同超參數配置之間的結果進行解釋和比較,即:
·統計假設檢驗:該方法能在給定結果的假設或預期的情況下,量化觀察結果的可能性。
·估算統計:能夠用置信區間量化結果的不確定性。
?
8、模型選擇
?
眾多機器學習算法中的某一個也許剛好適用于給定的預測建模問題。所以,選擇一種方法作為解決方案的過程稱為模型選擇。這可能會涉及到一套標準,不僅要考慮項目利益相關方,還有對問題評估方法預測技巧的要求。
可以使用與模型配置一樣的兩類統計方法來解釋不同模型的估算技能,即:統計假設檢驗和估算統計方法,從而實現模型選擇。
?
9、模型表示
?
一旦最終模型得到訓練,那它基于真實數據部署后就可以進行實際預測,并呈現出最終結果。
最終,模型表示的一部分包括展示模型的評估技能。
估計統計領域的一些方法可以通過使用容忍區間和置信區間,達到量化機器學習模型評估技能的不確定性。
·估計統計。該方法通過置信區間量化模型技能的不確定性。
?
10、模型的預測
?
最后,是時候使用最終模型對我們不知道的真實結果預測新數據了。預測中非常重要的一部分是量化預測的可信度。
我們可以使用與模型表示一樣的估計統計方法來量化這種不確定性。
?
總結
?
通過本文,你應該了解到了統計方法在整個預測建模項目過程中的重要性。
?
數十款阿里云產品限時折扣中,趕緊點擊領劵開始云上實踐吧!
本文由北郵@愛可可-愛生活?老師推薦,阿里云云棲社區組織翻譯。
文章原標題《10 Examples of How to Use Statistical Methods in a Machine Learning Project》
作者:Jason Brownlee
譯者:奧特曼,審校:袁虎。
文章為簡譯,更為詳細的內容,請查看原文
?
原文鏈接
總結
以上是生活随笔為你收集整理的如何在机器学习项目中使用统计方法的示例的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: AI写程序,这事可没那么简单!
- 下一篇: 如何用ACM简化你的Spring Clo