线性判别分析LDA的数学原理(二)
生活随笔
收集整理的這篇文章主要介紹了
线性判别分析LDA的数学原理(二)
小編覺得挺不錯的,現(xiàn)在分享給大家,幫大家做個參考.
1.關于PCA和LDA分類對比
PCA是無類別信息,不知道樣本屬于哪個類,用PCA通常對全體數(shù)據(jù)操作。LDA有類別信息投影到類內(nèi)間距最小&&類間間距最大。 首先我們應該明白這兩個算法的原理是不一樣的,PCA是選擇投影后使得整個數(shù)據(jù)方差最大的方向來投影,假設就是方差越大,信息量越多,PCA是一種無監(jiān)督算法,沒有類別信息。而LDA是選擇投影后使得類內(nèi)方差小而類間方差大的方向來投影,用到了類別信息,所以選擇用哪種算法來降維應該是根據(jù)具體的目的和場景來的,如果目的就是分類,那么顯然LDA的選擇標準更合理,如果沒有類別信息(無監(jiān)督),那就只能選PCA,總之,兩者選擇投影的方向的標準是不一樣的,看哪個和你的需要更契合。 下面我們來看一個實例:通過上面降維結果,我們能過看到: PCA研究對象是全局數(shù)據(jù)對象,就是說PCA關心的是原始數(shù)據(jù)投影后包含信息量的大小,并沒有考慮分類信息。 LDA這是以分類信息為目標函數(shù),關心的是投影后的數(shù)據(jù),既滿足類內(nèi)間距越小越好,類間間距越大越好。 PCA選擇樣本點投影具有最大方差的方向,LDA選擇分類性能最好的方向。
2.LDA的線性預測能力
LDA既然叫做線性判別分析,應該具有一定的預測功能,比如新來一個樣例x,如何確定其類別?拿二值分類來說,我們可以將其投影到直線上,得到y(tǒng),然后看看y是否在超過某個閾值y0,超過是某一類,否則是另一類。而怎么尋找這個y0呢?
看
根據(jù)中心極限定理,獨立同分布的隨機變量符合高斯分布,然后利用極大似然估計求
?然后用決策理論里的公式來尋找最佳的y0,詳情請參閱PRML。
3.使用LDA的一些限制
3.1 LDA至多可生成C-1維子空間
LDA降維后的維度區(qū)間在[1,C-1],與原始特征數(shù)n無關,對于二值分類,最多投影到1維。3.2 LDA不適合對非高斯分布樣本進行降維。
上圖中紅色區(qū)域表示一類樣本,藍色區(qū)域表示另一類,由于是2類,所以最多投影到1維上。不管在直線上怎么投影,都難使紅色點和藍色點內(nèi)部凝聚,類間分離。
這個問題,現(xiàn)在已經(jīng)有了一些解決辦法,那就是利用基于核函數(shù)的線性判別分析。關于核函數(shù)的設計以及變換技巧,我在SVM系列文章中做過非常詳細的分析。
3.3?LDA在樣本分類信息依賴方差而不是均值時,效果不好。
圖中,樣本點依靠方差信息進行分類,而不是均值信息。LDA不能夠進行有效分類,因為LDA過度依靠均值信息。
4.參看資料
[1] https://www.zhihu.com/question/35666712/answer/86915281[2]?http://www.cnblogs.com/jerrylead/archive/2011/04/21/2024389.html
總結
以上是生活随笔為你收集整理的线性判别分析LDA的数学原理(二)的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Windows Vista SP1 Te
- 下一篇: XPS文档阅读器