机器学习入门(1)之基本概念简介
目錄
一、機器學習概述
1.1 什么是機器學習?
1.2 為什么需要機器學習?
1.3 機器學習應用場景
1.4 機器學習的一般流程
1.5 典型的機器學習過程?
二、機器學習的基本術語
三.假設空間與版本空間
四、歸納偏好
1.哪種更好
2..假設的選擇原則
3.沒有免費的午餐(No Free Lunch Theorem)
一、機器學習概述
基本概念:從具體到抽象
1.1 什么是機器學習?
機器學習是從數據中自動分析獲得規律(模型),并利用規律對未知數據進行預測
目前被廣泛采用的機器學習的定義是“利用經驗來改善計算機系統自身的性能”。
1.2 為什么需要機器學習?
解放生產力,智能客服,可以不知疲倦的24小時作業
解決專業問題,ET醫療,幫助看病
提供社會便利,例如杭州的城市大腦
1.3 機器學習應用場景
自然語言處理
無人駕駛
計算機視覺
推薦系統
1.4 機器學習的一般流程
1.5 典型的機器學習過程
二、機器學習的基本術語
數據集:所有記錄的集合
實例(instance)或樣本(example):每一條記錄
特征(feature)或屬性(attribute):單個的特點,一個記錄構成一個特征向量,可用坐標軸上的一個點表示
屬性值(attribute value):
- 屬性上的取值,例如“青綠”“烏黑”
- 屬性張成的空間稱為?“屬性空間”(attribute space)、“ 樣本空間”(sample space)或“輸入空間”.
特征空間(feature space):
- 分別以每個特征作為一個坐標軸,所有特征所在坐標軸張成一個用于描述不同樣本的空間,稱為特征空間
- 在該空間中,每個具體樣本就對應空間的一個點,在這個意義下,也稱樣本為樣本點。
- 每個樣本點對應特征空間的一個向量,稱為?“特征向量”
- 特征的數目即為特征空間的維數。
維數:一個樣本的特征數,維數災難
訓練集(trainning set),[特殊]:所有訓練樣本的集合
測試集(test set),[一般]:所有測試樣本的集合
泛化能力(generalization),即從特殊到一般:機器學習出來的模型適用于新樣本的能力
標記(label):
- 有前面的樣本數據顯然是不夠的,要建立這樣的關于“預測”(prediction) 的模型,我們需獲得訓練樣本的“結果”信息,例如“((色澤=青綠;根蒂=蜷縮;敲聲= =濁響),好瓜)”.這里關于示例結果的信息,例如“好瓜”,稱為“標記”(label); 擁有了標記信息的示例,則稱為“樣例”(example).
分類(classification):
- 若我們欲預測的是離散值,例如“好瓜”“壞瓜”,此類學習任務稱為"分類"
回歸(regression)
- 若欲預測的是連續值,例如西瓜成熟度0.95、0.37,類學習任務稱為“回歸”.
- 對只涉及兩個類別的稱為“二分類’(binary classification)’
聚類”(clustering)
- 即將訓練集中的樣本分成若干組,每組稱為一個?“簇”(cluster);
根據訓練數據是否擁有標記信息,學習任務可大致劃分為兩大類:“ 監督學習”(supervised learning)?和?“無監督學習”(unsupervised learning), 分類和回歸是前者的代表,而聚類則是后者的代表.
三.假設空間與版本空間
假設(hypothesis)、假設空間(hypothesis space):
- 每一個具體的模型就是一個“假設(hypothesis)”
- 模型的學習過程就是一個在所有假設構成的假設空間進行搜索的過程,搜索的目標就是找到與訓練集“匹配(fit)”的假設。
?廣義歸納學習:從樣例中學習
狹義歸納學習:從訓練數據中學得概念,因此也稱為“概念學習”或“概念形成”。其中最基本的是“布爾概念學習”
在這里你是否會有好多好多小問號??????
下面是:可能取值所形成的假設組成假設空間
?而我們就是要通過一定的方法來確定所謂的 “ ?” !!!那就是學習和搜索
學習過程:在所有假設組成的空間中進行搜索的過程。
搜索目標:找到與訓練集“匹配”的假設,即能夠將訓練集中的瓜判斷正確的假設。
?特殊情況: 某個因素可取任意值,用*來表示;目標概念根本不存在,用?來表示這個假設
設每個因素的取值分別為m1,m2,m3,…,mk,則假設空間規模為: ∏(mi+1)+1
? ? ? ? 然后,我們只需在假設空間的搜索過程中,不斷刪除與正例不一致的假設和、或與反例一致的假設,最終將會獲得與訓練集一致(即對所有訓練樣本能夠進行正確判斷)的假設
版本空間(version space)
- 基于有限規模的訓練樣本集進行假設的匹配搜索,會存在多個假設與訓練集一致的情況,稱這些假設組成的集合為“版本空間”
四、歸納偏好
1.哪種更好
機器學習算法在學習過程中對某種類型假設的偏好:
?如圖是A更好還是B更好?????
2..假設的選擇原則
主要準則:
“奧克姆剃刀(Occam’s Razor)”準則又稱為吝嗇定律(Law of parsimony),或者稱為樸素原則
- 如無必要,勿增實體
- 若多個假設與經驗觀測一致,則選擇最簡單的那個
其它原則
“多釋原則”:
- 保留與經驗觀察一致的所有假設
(與集成學習的思想一致)
3.沒有免費的午餐(No Free Lunch Theorem)
?NFL定理:一個算法?a若在某些問題上比另一個算法?b好,必存在另一些問題, ?b比?a好
NFL定義有一個重要前提:所有“問題”出現的機會相同、或所有問題同等重要。實際情形并非如此;我們通常只關注自己正在試圖解決的問題。脫離具體問題,空泛地談論“什么學習算法更好”,毫無意義!
? ? ? 簡單起見,假設樣本空間χ和假設空間Η都是離散的。令P(?│X,?a)代表算法?a基于訓練數據X產生假設?的概率。令f代表希望學習的真實目標函數。則?a在訓練集之外所有樣本上的總誤差為:
?????????考慮二分類問題,目標函數可以為任何函數χ?{0,1},函數空間為{0,1}^|χ|,對所有可能的f按均勻分布對誤差求和,有:
?總誤差與學習算法無關,所有算法一樣好!
總結
以上是生活随笔為你收集整理的机器学习入门(1)之基本概念简介的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java string format s
- 下一篇: java终结方法_Java终结任务:Ca