主成分分析碎石图_ISLR读书笔记十九:主成分分析(PCA)
前面寫的一些統計學習方法都是屬于監督學習(supervised learning),這篇主成分分析(principal components analysis,簡稱 PCA )和下一篇聚類分析(clustering)都是屬于非監督學習(unsupervised learning)。
之前 ISLR讀書筆記十二 中已經提到過主成分這一概念。其主要目的是利用一小部分數據組合,盡可能多地體現 全部數據的特征,從而實現降維的作用。
這里的 盡可能多地體現 可以有兩種解讀:
2. 低維空間下的最佳近似。
從第一種解讀出發,計算第一主成分:
令
這里要求
, 稱作加載(loadings), 稱作加載向量(loading vector)由于只關心數據的方差,所以可以對數據進行中心化,即要求
對于每一個分量
第一主成分使得樣本方差最大。即
由于
,所以即,使得 最大。這里, 稱作分數(scores)該優化問題,可以用奇異值分解(SVD)的方法解得。
第二主成分是所有與第一主成分
不相關(uncorrelated)的,關于 的線性組合中,方差最大的線性組合。令可以證明
與 不相關,等價于加載向量 與 正交。第三主成分是所有與
、 不相關(uncorrelated)的,關于 的線性組合中,方差最大的線性組合。以此類推。從第二種解讀出發,第一主成分加載向量是
維空間中,最接近 個觀測數據的直線(在歐式距離平方的均值下最接近)。更一般地,前 個主成分的分數向量和加載向量,構成了原始 維數據在 維空間的最佳近似,即
另外 PCA 還有其他一些需要注意的點:
規模化:
數據通常需要提前進行規模化(scaled)(每個變量乘以不同的常數),使得每個自變量的標準差為1。否則如果有部分變量方差特別大,那么PCA 的結果會受很大影響。
唯一性
每一個主成分在相差一個正負號的意義下式唯一的
被解釋方差比例
我們通常關心前幾個主成分反映了多少方差
數據總方差定義如下
第
個主成分的被解釋方差定義如下:第
個主成分被解釋方差的比例(proportion of variance explained)即為
決定主成分的個數
可以通過碎石圖(scree plot),來決定主成分的個數
方法是尋找一個點,在這個點之后的點,主成分被解釋方差比例很小
總結
以上是生活随笔為你收集整理的主成分分析碎石图_ISLR读书笔记十九:主成分分析(PCA)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: php下载 微信头像图片_php保存微信
- 下一篇: java飞机大战分数累加代码_JAVA