从零开始的AI·机器学习の基本概念
從零開始的AI系列
機器學習の基本概念
- 從零開始的AI系列
- 一、機器學習の相關術語及其理解
- 二、機器學習の學習任務
- 分類
- 回歸
- 聚類
- 特征降維與低維可視化
- 三、機器學習の學習范式
- 監督式學習
- 半監督式學習
- 非監督式學習
- 強化學習
- 四、假設&假設空間&版本空間
- 五、假設の選擇原則
- “奧克姆剃刀(Occam’s Razor)”準則
- “多釋原則”
- 六、機器學習の三要素
- 模型
- 策略
- 損失函數(代價函數)
- 期望風險
- 經驗風險
- 經驗風險最小化策略
- 結構風險最小化策略
- 算法
- 常見算法
- 方法=模型+策略+算法
機器學習 Machine Learning 是一門涉及統計學、系統辨識、逼近理論、神經網絡、優化理論、計算機科學、腦科學等諸多領域的交叉學科,研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能,是人工智能技術的核心。基于數據的機器學習是現代智能技術中的重要方法之一,研究從觀測數據(樣本)出發 尋找規律,利用這些規律對未來數據或無法觀測的數據 進行預測。
–人工智能標準化白皮書(2018版)
本文大綱基于河北師范大學軟件學院張朝暉老師編寫的PPT,以《統計學習方法》《機器學習》等書籍對內容加以補充,并輔以CSDN前輩大佬有關文章的啟發,整理總結而成。最后,歡迎各位學弟學妹們報考河北師范大學軟件學院!
一、機器學習の相關術語及其理解
-
樣本sample:所研究對象的一個個體。相當于統計學中的實例(如河北師大學生對一票否決制的意見)
-
特征feature:研究對象的不同于其他對象的特點(如河北師大學生是否贊同一票否決制)
-
屬性attribute:用數值表示的某些量化特征(如河北師大學生選擇贊同則標記為1,不贊同標記為-1,無感的標記為0)
-
特征空間:分別以每個特征作為一個坐標軸,所有特征所在坐標軸張成一個用于描述不同樣本的空間(如以河北師大學生大一到大四為縱坐標,以贊同,不贊同,無感為橫坐標建立坐標系)每個具體樣本就對應空間的一個點,在這個意義下,也稱樣本為樣本點。特征的數目即為特征空間的維數。 模型都是定義在特征空間上的
-
輸入空間:可能輸入的所有元素的集合,其中輸入變量用X表示
-
輸出空間:可能輸出的所有元素的集合,其中輸出變量用Y表示
-
類別標簽:為數據分類處理的依據(如河北師大學生依據年級分為大一到大四,大一到大四即為類別標簽)
-
在機器學習和模式識別等領域中,一般需要將樣本分成獨立的三部分訓練集(train set),驗證集(validation set ) 和測試集(test set)。其中訓練集用來估計模型,驗證集用來確定網絡結構或者控制模型復雜程度的參數,而測試集則檢驗最終選擇最優的模型的性能如何。一個典型的劃分是訓練集占總樣本的50%,而其它各占25%,三部分都是從樣本中隨機抽取。
二、機器學習の學習任務
分類
回歸
聚類
特征降維與低維可視化
三、機器學習の學習范式
監督式學習
- 目的在于精確預測
- 適用于面向分類模型,回歸模型的分析
- 預測性能
- 基于已知標簽的數據集學習預測模型,基于該模型對未知樣本的輸出做出預測。
半監督式學習
- 基于少量有標簽樣本(標注成本高)、大量無標簽樣本(獲取容易)學習輸入到輸出的預測模型。
- 充分利用無標簽樣本的信息,輔助有標簽的樣本,進行監督學習
- 以較低成本獲得較好的學習效果。
非監督式學習
- 目的在于發現關于數據的緊致描述、知識發現
- “描述性能”
- 算法基于無標簽樣本集進行模型學習,基于學得的模型對所
有未知樣本做出預測。
強化學習
- 借助智能體與環境的連續互動,學習最優行為策略
- 以試錯方式,使智能體學得當前環境狀態到行為的映射,使得智能體能結合環境狀態,選擇能夠獲得環境最大獎賞的行為
- 結合給定的獎懲機制,算法學習如何與環境交互,以便智能體對環境采取更好的動作行為。
- 典型應用:下棋、無人駕駛
四、假設&假設空間&版本空間
- 每一個具體的模型就是一個 “假設(hypothesis)”
- 所有模型的集合即 假設空間
- 模型的學習過程就是一個在所有假設構成的假設空間進行搜索的過程,搜索的目標就是找到與訓練集“匹配(fit)”的假設。
- 基于有限規模的訓練樣本集進行假設的匹配搜索,會存在多個假設與訓練集一致的情況,稱這些假設組成的集合為 “版本空間”
五、假設の選擇原則
“奧克姆剃刀(Occam’s Razor)”準則
- 如無必要,勿增實體
- 若多個假設與經驗觀測一致,則選擇最簡單的那個
“多釋原則”
- 保留與經驗觀察一致的所有假設 (與集成學習的思想一致)
六、機器學習の三要素
模型
- 首先要確定需要學習什么樣的模型
策略
- 機器學習的目標在于從假設空間中選取最優模型
- 策略就是確定基于什么樣的準則 ,學習或選擇最優模型。
- 實質:面向具體模型的學習,確定準則函數(也稱損失函數、代價函數、目標函數)
損失函數(代價函數)
- 損失函數值越小越好
期望風險
- 機器學習的目標在于選擇期望風險最小的模型
- 但因聯合分布P (X,Y)未知,難以計算
經驗風險
- 對所有訓練樣本都求一次損失函數,再累加求平均。即模型f(x)對訓練樣本中所有樣本的預測能力。
- 所謂經驗風險最小化即對訓練集中的所有樣本點損失函數的平均最小化。經驗風險越小說明模型f(x)對訓練集的擬合程度越好。
- 實際問題中,訓練樣本數目N非常有限,需對經驗風險矯正
經驗風險最小化策略
- 在假設空間、損失函數形式、以及訓練樣本集確定的前提下
- 假設空間中,使經驗風險最小的模型,就是最優模型。
- 當容量足夠大時效果好
- 當容量小時,容易產生過擬合
結構風險最小化策略
- J(f) 是模型的復雜度,模型f越復雜,J(f)值就越大
- λ 是正則項的系數,λ≥0 ,用以權衡經驗風險和模型復雜度。
- 值越小,模型關于訓練集的學習能力越好
算法
- "算法"是指采用何種算法,求解最優化問題
常見算法
- 決策樹(Decision Trees)
- 樸素貝葉斯分類(Naive Bayesian classification)
- 最小二乘法(Ordinary Least Squares Regression)
- 邏輯回歸(Logistic Regression)
- 支持向量機(Support Vector Machine,SVM)
- 集成方法(Ensemble methods)
- 聚類算法(Clustering Algorithms)
- 主成分分析(Principal Component Analysis,PCA)
- 奇異值分解(Singular Value Decomposition,SVD)
- 獨立成分分析(Independent Component Analysis,ICA)
方法=模型+策略+算法
總結
以上是生活随笔為你收集整理的从零开始的AI·机器学习の基本概念的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 五天带你学完《计算机网络》·第五天·网络
- 下一篇: 想写游戏吗?手把手教你SDL的安装及配置