机器学习的一般步骤
目錄
- 1.總體框架
- 2.數據采集
- 3.特征提取
- 4.模型、學習準則和優化算法的確定
- 5.模型的使用
1.總體框架
2.數據采集
由于機器學習是從數據中進行學習的方法,所以首先要針對想要解決的問題進行數據的采集。數據的采集主要有兩種途徑,一種是自己采集,另一種就是去網上找公開的數據集。數據采集完成后,就得到了原始的數據。
3.特征提取
由于原始數據繁多,我們需要從原始數據中,提取出跟想要解決問題相關的數據作為特征(一些深度學習的方法可以自己從數據中提取特征,但是傳統機器學習方法往往需要自己去提取特征,稱為特征工程)。比如上圖中的敲擊聲、顏色光澤、紋路清晰度等可以作為判斷西瓜是否成熟的特征,但是像西瓜的形狀等特征或許與其是否成熟無關,則不能作為特征(如果提取到了與所解決問題無關的特征會怎么樣?)。
4.模型、學習準則和優化算法的確定
模型、學習準則與優化算法是機器學習的三大要素:
模型的作用是根據輸入的特征給出輸出的結果(針對具體的問題),也可以將模型理解為函數。不同的機器學習模型(比如LR、SVM、NB等),實質上是不同的待選擇函數簇。當模型的類型確定后,函數的大體框架就確定了,剩下的就是對函數中的參數的學習。所以,機器學習的本質就是在一堆由不同的參數所決定的函數里面,選出最好的那個(一個優化問題)。
學習準則的作用是針對想要解決的問題,評價某一個模型的好壞程度。在監督學習中,一般是看模型的輸出與數據集中的真值的差異,差異越小,一般就代表模型越好。
優化算法的作用是對選出最好的模型這個優化問題進行求解。
這三大要素確定好之后,將數據集帶入其中,即可訓練出一個在當前的數據集情況下的最優模型。
5.模型的使用
訓練好后得到了一個最優的函數,然后將待預測的特征自變量輸入模型即可得到預測的結果。
總結
- 上一篇: 计算机专业博士毕业月薪多少一般,博士毕业
- 下一篇: 红楼梦的作者是谁