机器学习--降维
降維(Dimensionality Reduction)
視頻參考:【機器學習】【白板推導系列】【合集 1~33】_嗶哩嗶哩_bilibili
筆記參考:降維 · 語雀 (yuque.com)
PCA原理詳解:主成分分析(PCA)原理詳解 - 知乎 (zhihu.com)
PCA數學原理解釋:CodingLabs - PCA的數學原理
SVD奇異值分解:?奇異值分解(SVD) - 知乎 (zhihu.com)
過擬合
- 增加數據
- 正則化
- 降維
- 直接降維(特征選擇)
- 線性降維(PCA、MDS)
- 非線性降維(流形學習(Isomap、LLE))
維度災難(數據稀疏性):幾何角度
對于高維空間而言, 維度越高,球形體的體積越小
樣本均值 & 樣本協方差矩陣
- ?表示存在N個數據,其中每個數據維度為P維
- 表示為中心矩陣, 其中
主成分分析(PCA)
最大的投影方向, 叫做主成分
一個中心:原始特征空間的重構
兩個基本點:
- 最大投影方差
- 最小重構距離
最大投影方差? --> 尋找投影后距離范圍最大的向量
?一、計算兩個向量之間的投影值? =>?表示向量的投影
二、計算方差最小值J,
其中?
最小重構代價 --> 降低特征維度損失最小
?一、對于向量重新選擇向量基, 將維度由p維 降到 q維
二、計算最小重構代價,轉換為最優化問題, 其中求解最小值
SVD角度看PCA
方差矩陣S,?, , 方差矩陣S是對稱矩陣, 對方差矩陣S進行特征分解就是奇異值分解
奇異值SVD分解:奇異值分解(SVD) - 知乎 (zhihu.com)
SVD的作用就相當于是一個坐標系變換的過程,從一個不標準的n維坐標系,轉換為一個標準的k維坐標系,并且使這個數據集中的點,到這個新坐標系的歐式距離為最小值(也就是這些點在這個新坐標系中的投影方差最大化),其實就是一個最小二乘的過程。
進一步,如何使數據在新坐標系中的投影最大化呢,那么我們就需要讓這個新坐標系中的基盡可能的不相關,我們可以用協方差來衡量這種相關性。A^T·A中計算的便是n×n的協方差矩陣,每一個值代表著原來的n個特征之間的相關性。當對這個協方差矩陣進行特征分解之后,我們可以得到奇異值和右奇異矩陣,而這個右奇異矩陣則是一個新的坐標系,奇異值則對應這個新坐標系中每個基對于整體數據的影響大小,我們這時便可以提取奇異值最大的k個基,作為新的坐標,這便是PCA的原理。
使用SVD奇異值分解, 直接獲取主成分分析 or 主坐標分析
X表示數據, HX表示中心化數據, 對HX進行奇異值分解得到
概率角度P-PCA
完全沒有聽懂
?
總結
- 上一篇: CCCC L1-002. 打印沙漏【图形
- 下一篇: MES系统源码 MES系统功能介绍