支持向量机的近邻理解:图像二分类为例(1)
前言:
??????? 機器學習在是否保留原始樣本的層面劃分為兩類:參數學習和非參數學習。參數學習使用相對固定框架,把樣本分布通過訓練的方式回歸到一個使用參數描述的數學模型里面,最終使用的是歸納方法;非參數模型保留了原始樣本或者原始樣本的其他空間轉化形式,訓練過程保留全部或者部分樣本,最終使用的方法類似于演繹。
??????? svm方法偏向于非參數模型方法,使用的是精簡—泛化模式。
貝葉斯算法:
??????? 在類條件概率密度和先驗概率已知(或可以估計)的情況下,通過貝葉斯公式比較樣本屬于兩類的后驗概率,將類別決策為后驗概率大的一類。
?? ? ?? 貝葉斯決策的的目的是 最小化總體誤差率的平均期望。
??????? 貝葉斯決策包含了大量不可探測(或刻意隱瞞)的事實,面對的是無窮的數據泛化空間,以最小化總體誤差率的平均期望本質地實現強泛化性,是一個弱假設的決策方式。
過擬合與欠擬合:
???????? 過擬合與欠擬合有多種表達方式。
????? ?? 實驗性的定義: 模型在測試集上的性能普遍超過驗證集合的性能,意味著模型的泛化能力較差,出現了過擬合。這是一個統計機器學習給出的普遍接受的定義,畢竟實驗是檢驗真理的唯一標準。
??????? 這個定義與教科書上的多項式擬合的闡述過擬合的方式沒有任何特定的關系。強試驗意味著弱假設,若把所有的事情交給試驗,那么機器學習的專家還需要做些什么?把所有的東西都交給一個模型,那么這個強模型是從何而來?
??????? 這就引入了機器學習的歸納學習本質,從數據中學習規律(規則),以規則集合來構建模型,進而驗證集來驗證規律是否合理。從數據中學習規律是機器學習的任務,學習到的規律是合理的嗎?進行驗證集試驗是一個實驗性的方法,從構建規則之初,已經暗含引入的一個模式:由數據和規則期望構建的假設空間。
??????? 由數學期望構建的假設空間,來理解教科書上的解釋多項式過擬合的闡述內容。
??????? 從數據中學習規則,抽象為規則集合,構建為模型。若規則集合適用于驗證集,則意味著泛化成功,若不適用于驗證集,則出現了過擬合。
假設空間:
??????? 一個古老的哲學原理:世界并不是以小包的形式來到我們面前,除非遍歷整個空間,任何訓練得到的模型都是過擬合的。面對學習問題,首先面對這一個空間的認知問題,對空間結構的認識來自于接口,而全面的認識來自于遍歷。
??????? 在認識一個未知空間之前,一般的套路是由接口獲取的數據對這個空間進行簡單假設,迭代修改理解規則,最后到遍歷。
圖像二分類問題:
???????? 在圖像識別領域,灰度圖像被稱為傳說中的2維張量,任意圖像為由所有二類圖像構成的這個二維張量空間內的一個點。對于簡單的二分類問題,學習需要做的是建立一個模型,可以把二維張量空間內的數據集塞入這個模型,壓縮到一維張量空間內的一維向量之中的兩個點上。這就是傳說中的壓縮映射,也叫壓縮hash。
??????? 假設空間:所有能假設到的圖像在二維張量空間可遍歷到的范圍。
??????? 特征提取:由人類專家完成圖像屬性歸納,把圖像的特征顯式的歸結為一維張量空間的n維向量上,被稱為特征提取。
??????? 特征空間:由所有可生成的n維向量可遍歷到的向量空間,教科書稱之為特征空間。
??????? SVM模型面對的問題:模型面對的問題是模型在特征空間中的泛化問題。
一、線性可分性
???????? 函數集的VC維:https://en.wikipedia.org/wiki/VC_dimension
???????? VC維反映了函數集的學習能力,VC維越大則學習機器越復雜(容量越大),遺憾的是,目前尚沒有通用的關于任意函數集VC維計算的理論,只對一些特殊的函數集知道其VC維。例如在N維空間中線性分類器和線性實函數的VC維是N+1。
???????? 線性可分:根據模式識別教材理解,在二維空間中二分類線性可分意味著一條直線可以把兩類樣本完全分開。
?????????????????? ? ??????? 在二維向量空間中,特征空間為集合S.<X,Y> 可遍歷的二維向量任意位置。假設空間為假設的所有樣本可遍歷的二維向量空間。
???????????????????????????? 線性可分即為存在一條直線 y=Ax+B 使 集合S.<X,Y> 可完全劃分為兩類。
二、線性可分的近鄰描述
???????? 近鄰法在一維向量空間中用于分類有直觀可驗證效果。A和B為邊界樣本,分類超平面的理想形式為 一維點的坐標:(A+B)/2 。根據近鄰原則,C為A類。
???? ? ? 在二維向量空間中,線性可分即為存在一條直線 y= Ax+B 使 集合S.<X,Y> 可完全劃分為兩類。此直線為可劃分集合的超平面。
紅色直線為超平面:y= Ax+B
?????????? 對于一個完全可分的二維向量空間中的集合,分類超平面可以不止一條。根據近鄰原則,最合適的超平面為中間的黑色直線,在黑色直線左側的點離藍色邊界集合構成的直線較近,直覺上應該劃分為藍色集合。
??????? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? 此圖直接使用了SVM的論述介紹,直接借用了文章中的圖;
????????????? ? ? ? ? ? ? ? ? ? ?? ??? 鏈接地址:支持向量機(SVM)算法
三、壓縮近鄰法
??????? 模式識別教材里面闡述方法,壓縮近鄰法使用了1968年提出的CONDENSE算法,可以在不犧牲分類準確度的前提下大大壓縮近鄰法決策時的訓練樣本數目。通過啟發式方法尋找用較少的樣本代表集合中的分類信息。剔除離邊界遠的樣本是迭代尋找邊界的重要思想。
??????? 壓縮近鄰法隱式或者顯示地使用了樣本間的歐式距離信息,在維度較高,歐式距離可表示性變差,是否可以使用一種新的近鄰表示方式。
總結
以上是生活随笔為你收集整理的支持向量机的近邻理解:图像二分类为例(1)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: TikTok 东南亚月活用户已超 3 亿
- 下一篇: 旺影速转如何为视频添加水印?旺影速转为视