如何直观地理解「协方差矩阵」?
如何直觀地理解「協(xié)方差矩陣」?
Xinyu ChenUrban Traffic Data Analytics372 人贊同了該文章協(xié)方差矩陣在統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)中隨處可見(jiàn),一般而言,可視作方差和協(xié)方差兩部分組成,即方差構(gòu)成了對(duì)角線上的元素,協(xié)方差構(gòu)成了非對(duì)角線上的元素。本文旨在從幾何角度介紹我們所熟知的協(xié)方差矩陣。
文章結(jié)構(gòu)
- 方差和協(xié)方差的定義
- 從方差/協(xié)方差到協(xié)方差矩陣
- 多元正態(tài)分布與線性變換
- 協(xié)方差矩陣的特征值分解
1. 方差和協(xié)方差的定義
在統(tǒng)計(jì)學(xué)中,方差是用來(lái)度量單個(gè)隨機(jī)變量的離散程度,而協(xié)方差則一般用來(lái)刻畫兩個(gè)隨機(jī)變量的相似程度,其中,方差的計(jì)算公式為
其中, 表示樣本量,符號(hào) 表示觀測(cè)樣本的均值,這個(gè)定義在初中階段就已經(jīng)開(kāi)始接觸了。
在此基礎(chǔ)上,協(xié)方差的計(jì)算公式被定義為
在公式中,符號(hào) 分別表示兩個(gè)隨機(jī)變量所對(duì)應(yīng)的觀測(cè)樣本均值,據(jù)此,我們發(fā)現(xiàn):方差 可視作隨機(jī)變量 關(guān)于其自身的協(xié)方差 .
2. 從方差/協(xié)方差到協(xié)方差矩陣
根據(jù)方差的定義,給定 個(gè)隨機(jī)變量 ,則這些隨機(jī)變量的方差為
其中,為方便書寫, 表示隨機(jī)變量 中的第 個(gè)觀測(cè)樣本, 表示樣本量,每個(gè)隨機(jī)變量所對(duì)應(yīng)的觀測(cè)樣本數(shù)量均為 。
對(duì)于這些隨機(jī)變量,我們還可以根據(jù)協(xié)方差的定義,求出兩兩之間的協(xié)方差,即
因此,協(xié)方差矩陣為
其中,對(duì)角線上的元素為各個(gè)隨機(jī)變量的方差,非對(duì)角線上的元素為兩兩隨機(jī)變量之間的協(xié)方差,根據(jù)協(xié)方差的定義,我們可以認(rèn)定:矩陣 為對(duì)稱矩陣(symmetric matrix),其大小為 。
3. 多元正態(tài)分布與線性變換
假設(shè)一個(gè)向量 服從均值向量為 、協(xié)方差矩陣為 的多元正態(tài)分布(multi-variate Gaussian distribution),則
令該分布的均值向量為 ,由于指數(shù)項(xiàng)外面的系數(shù) 通常作為常數(shù),故可將多元正態(tài)分布簡(jiǎn)化為
再令 ,包含兩個(gè)隨機(jī)變量 和 ,則協(xié)方差矩陣可寫成如下形式:
用單位矩陣(identity matrix) 作為協(xié)方差矩陣,隨機(jī)變量 和 的方差均為1,則生成如干個(gè)隨機(jī)數(shù)如圖1所示。
在生成的若干個(gè)隨機(jī)數(shù)中,每個(gè)點(diǎn)的似然為
對(duì)圖1中的所有點(diǎn)考慮一個(gè)線性變換(linear transformation): ,我們能夠得到圖2.
在線性變換中,矩陣 被稱為變換矩陣(transformation matrix),為了將圖1中的點(diǎn)經(jīng)過(guò)線性變換得到我們想要的圖2,其實(shí)我們需要構(gòu)造兩個(gè)矩陣:
- 尺度矩陣(scaling matrix):
- 旋轉(zhuǎn)矩陣(rotation matrix)
其中, 為順時(shí)針旋轉(zhuǎn)的度數(shù)。
變換矩陣、尺度矩陣和旋轉(zhuǎn)矩陣三者的關(guān)系式:
在這個(gè)例子中,尺度矩陣為 ,旋轉(zhuǎn)矩陣為 ,故變換矩陣為
.
另外,需要考慮的是,經(jīng)過(guò)了線性變換, 的分布是什么樣子呢?
將 帶入前面給出的似然 ,有
由此可以得到,多元正態(tài)分布的協(xié)方差矩陣為
.
4. 協(xié)方差矩陣的特征值分解
回到我們已經(jīng)學(xué)過(guò)的線性代數(shù)內(nèi)容,對(duì)于任意對(duì)稱矩陣 ,存在一個(gè)特征值分解(eigenvalue decomposition, EVD):
其中,的每一列都是相互正交的特征向量,且是單位向量,滿足 ,對(duì)角線上的元素是從大到小排列的特征值,非對(duì)角線上的元素均為0。
當(dāng)然,這條公式在這里也可以很容易地寫成如下形式:
其中, ,因此,通俗地說(shuō),任意一個(gè)協(xié)方差矩陣都可以視為線性變換的結(jié)果。
在上面的例子中,特征向量構(gòu)成的矩陣為
.
特征值構(gòu)成的矩陣為
.
到這里,我們發(fā)現(xiàn):多元正態(tài)分布的概率密度是由協(xié)方差矩陣的特征向量控制旋轉(zhuǎn)(rotation),特征值控制尺度(scale),除了協(xié)方差矩陣,均值向量會(huì)控制概率密度的位置,在圖1和圖2中,均值向量為 ,因此,概率密度的中心位于坐標(biāo)原點(diǎn)。
相關(guān)參考:
Understanding the Covariance MatrixWhat is the Covariance Matrix?編輯于 2018-06-12統(tǒng)計(jì)學(xué)線性代數(shù)機(jī)器學(xué)習(xí)?贊同 372??29 條評(píng)論?分享?收藏?總結(jié)
以上是生活随笔為你收集整理的如何直观地理解「协方差矩阵」?的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 方向导数 梯度
- 下一篇: 方差协方差以及协方差矩阵