无监督学习:无监督降维
生活随笔
收集整理的這篇文章主要介紹了
无监督学习:无监督降维
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
1.前言
如果輸入樣本x的維數增加的話,不論是什么機器學習算法,其學習時間都會增加,學習過程也會變得更加困難。例如,假設在一維空間的{0,1}區間里有5個訓練樣本。以相同的密度在d次維空間里配置相同種類的訓練樣本的話,最終的樣本數目就達到了5^d個。如下圖所示:高維空間的一個例子。當維數d很大的時候,收集并計算多達5^d個的訓練樣本是相當 困難的。因此,在高維空間中,訓練樣本也經常已悉數的方式進行配置 即便維數d=10 ,樣本總數也已經高達5^10(≈10000000)了。收集并計算這么多的訓練樣本,是一件相當困難的事情。因此,在高維空間里,訓練樣本也經常以稀疏的方式加以配置。 另外,高維空間也不如低維空間那樣容易給人直觀的直覺。 綜上,高維數據的處理是相當困難的,一般稱為維數災難。為了使機器學習算法從維數災難中解放出來,一般采用的有效方法是保持輸入數據中包含的所有信息,對其維數進行削減。 本篇博客著眼于無監督的降維方法。
2.線性降維原理
無監督降維的目的,是把高維的訓練輸入樣本{xi}變換為低維的訓練樣本{zi},并在降維后還能盡可能的保持其原本包含的信息。通過xi的線性變換求解zi的時候,即使用維數為m*d的投影矩陣T求解zi。公式為:線性降維,使用長方形的矩陣T進行降維,與向局部線性空間的投影相對應 為了簡便起見,假定訓練輸入樣本{xi}的平均值為0.
如果平均值不是零的話,則預先減去平均值,使訓練輸入樣本的平均值保持為零。(中心化)
數據的中心化
3.主成分分析
主成分分析法,是盡可能地忠實再現原始數據的所有信息的降維方法,如下圖:主成分分析是盡可能地忠實再現原始數據的所有信息的降維方法 具體而言,就是在降維后的輸入zi是原始訓練輸入樣本xi的正投影這一約束條件下,設計投影矩陣T。讓zi與xi盡可能相似i.zi是xi的正投影這一假設,與投影矩陣T滿足T*T'=Im是等價的,其中,Im是指m*m的單位矩陣。 然而,當zi與xi的維度不一樣的時候,并不能直接計算其平方誤差。因此,一般先把m次維的zi通過T'變換到d次維空間,在計算其與xi的距離所有樣本的T'zi(T*T'xi)與xi的平方距離的和,可以通過下式表示:
注意:在線性代數中,一個n×n矩陣A的主對角線上各個元素的總和被稱為矩陣A的跡(或跡數),一般記作tr(A)。 其中,C為訓練樣本的協方差矩陣:
綜合以上過程,主成分分析的學習過程可以用下式進行表示:
這里考慮到矩陣C的固定值的問題
將固定值與相對應的固定相良分別表示為λ1≥...≥λd≥0和ξ1≥...≥ξd。 這樣主成分分析的階就可以通過下式求得:
也就是說,主成分分析的投影矩陣,是通過向訓練輸入樣本的協方差矩陣C中的較大的m個固定值所對應的固定相良張成德局部空間正投影而得到的。與此相反,通過把較小的固定值所對應的固定相良進行削減,與原始樣本的偏離就可以達到最小。 下面展示的是一個主成分分析的實例:
直線表示的是一維的正投影空間 在本例中,通過把d=2次維的數據降到m=1次維,使得到的結果盡可能地在線了原始數據的所有信息。 另外,我們必須注意的是,主成分分析中求得的低維{zi},其各個元素質檢室無關聯的,相互獨立的,也就是說協方差矩陣是對角矩陣:
4.局部保持投影
局部保持投影利用訓練輸入樣本間的相似度信息。訓練輸入樣本xi與xi'的相似度用Wi,i'表示。當xi與xi'較為相似的時候,Wi,i'為較大的值;當xi與xi'不是那么相似的時候,Wi,i'為較小的值。相似度是對稱的。局部保持投影是能夠保護數據中的簇結構的線性降維方法
訓練輸入樣本{xi}間相似度的實例 在局部保持投影中,認為相似度較高的樣本對的投影也較為相似,以此來決定投影矩陣T。具體而言,就是計算下式的值最小的時候對應的T:
然而,朝著這個方向求解的話,會得到T=O這樣不證自明的結果。
為了避免得到這樣退化的解,往往會加一個約束條件:
上式中,X是訓練輸入樣本的矩陣,D是以矩陣W的各行元素只和為對角元素的對角矩陣:
下圖表示的是與高斯相似度相對應的局部保持投影的實例。在該例中,同樣也是把d=2維的數據降到m=1維,使得結果很好的保留了原始數據簇構造的信息。
5.核函數主成分分析
這里介紹通過在核映射方法里引入主成分分析,來進行非線性降維的核函數的主成分分析法。即把訓練集{xi}通過非線性函數進行變換,在變換后的特征空間里進行主成分分析。通過這樣的方法,就可以在原始訓練樣本的特征空間中進行非線性降維操作。 例如,將普通的直角坐標系中的二維輸入向量x=(x1,x2)'通過fun()變換為在極坐標系(距原點的距離為r,角度為Θ)中,如下圖所示:使用非線性數據進行非線性主成分分析實例。 X表示的是樣本;實線是通過主成分分析求得的一維子空間;O是樣本仙子空間的正投影 對原始的二維訓練樣本直接進行主成分分析,并不能很好滴捕捉到彎曲狀的數據分布。而經過變換后,在極坐標系下,數據樣本基本上筆直地串聯在一起。把特征空間中的主成分分析結果返回到原始的輸入,就可以很好的捕捉到原始數據中彎曲狀的數據分布。
總結
以上是生活随笔為你收集整理的无监督学习:无监督降维的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 无监督学习:异常检测与剔除(局部异常因子
- 下一篇: DOM3 textInput事件-sof