机器学习中的一些概念
顯著式編程:顯著式編程從一開始就定死了程序的輸入和輸出。
非顯著式編程:讓計算機自己總結規律的編程方法叫做非顯著式編程。非顯著式編程是讓計算機通過數據、經驗自動的學習完成我們交給的任務。
機器學習關注的是非顯著式的編程。
按照任務是否需要和環境交互獲得經驗,將機器學習分為監督學習和強化學習。
強化學習:(Reinforcement Learning)計算機通過與環境的互動,逐漸強化自己的行為模式。
監督學習根據數據標簽存在與否分為:
(1)傳統的監督學習(Traiditional Supervised Learning)每一個訓練數據都有對應的標簽
傳統的監督學習包含算法包括:
- 支持向量機(support vector machine)
- 人工神經網絡(neural networks)
- 深度神經網絡(deep neural networks)
(2)非監督學習(Unsupervised Learning)所有的訓練數據都沒有對應的標簽。
非監督學習包含算法包括:
- 聚類(clustering)
- EM算法(Expectation-Maximization algorithm)
- 主成分分析(principle component analysis)
(3)半監督學習(Semi-Supervised Learning)訓練數據中一部分有標簽,一部分沒有標簽。
另一種分類方法是基于標簽的固有屬性,將監督學習分為分類和回歸:
分類:(classification)如果標簽是離散的值我們叫做分類。比如人臉識別就是分類問題。
回歸:(regression)如果標簽是連續的值我們叫做回歸。預測房價是回歸問題,因為房價是一個連續的變量。
機器學習的重點不是研究如何提取特征,而是假設在已經提好了這么多特征的前提下,如何構造算法獲得更好的性能。
No Free Lunch Theory。----沒有普適的、放之四海而皆準的算法。
機器學習的步驟:
(1)特征提取(Feature Extraction):是指通過訓練樣本獲得的,對機器學習任務有幫助的多個維度特征數據。
機器學習的重點不是研究如何提取特征,而是假設在已經提取好特征的前提下,如何構造算法獲得更好的性能指標。所以機器學習是假設已經在獲得特征的前提下,研究合理的算法,使學習系統獲得較好的性能。
(2)特征選擇(Feature Selection),即對特征進行取舍。
(3)如何基于特征構建算法。(比如采用支持向量機)
?
基礎科普:
線性可分:(Linear Separable)在二維空間中使用一條直線就可以將其區分開,三維空間中使用的是平面將其區分開,四維以及四維以上的空間使用的是超平面。
線性不可分:(Nonlinear Separable)
上述對于線性可分和線性不可分的定義只是局限于二分類問題,對于類別數大于2的情況需要給出線性可分與線性不可分的嚴格定義。
數學定義證明:在二分類的情況下,如果一個數據集是線性可分的,即存在一個超平面將兩個類別完全分開,那么一定存在無數多個超平面將這兩個類別完全分開。
證明見鏈接:
支持向量機中的三種內核:
(1)線性內核;
(2)多項式內核;
(3)高斯徑向基函數核(rbf內核)
為了理解方便,可以把這三種內核看做三種不同的機器學習算法。
?
?
?
?
?
?
?
總結
以上是生活随笔為你收集整理的机器学习中的一些概念的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习中的算法(4.2):SVM---
- 下一篇: 机器学习中的算法(4.3):SVM---