协方差矩阵, 相关系数矩阵
變量說明:
設為一組隨機變量,這些隨機變量構成隨機向量,每一個隨機變量有m個樣本,則有樣本矩陣
???????????????????????????????????????????????????????????(1)
當中相應著每一個隨機向量X的樣本向量,相應著第i個隨機單變量的全部樣本值構成的向量。
?
單隨機變量間的協方差:
隨機變量之間的協方差能夠表示為
???????????????????????????????????????????????????????????????????(2)
依據已知的樣本值能夠得到協方差的預計值例如以下:
?????????????????????????????????????????????????????????? (3)
能夠進一步地簡化為:
???????????????????????????(4)
?協方差矩陣:?
??
?????????????????????????(5)
當中,從而得到了協方差矩陣表達式。
假設全部樣本的均值為一個零向量,則式(5)能夠表達成:
????(6)
?
補充說明:
?
1、協方差矩陣中的每個元素是表示的隨機向量X的不同分量之間的協方差,而不是不相同本之間的協方差,如元素Cij就是反映的隨機變量Xi, Xj的協方差。
2、協 方差是反映的變量之間的二階統計特性,假設隨機向量的不同分量之間的相關性非常小,則所得的協方差矩陣差點兒是一個對角矩陣。對于一些特殊的應用場合,為了使 隨機向量的長度較小,能夠採用主成分分析的方法,使變換之后的變量的協方差矩陣全然是一個對角矩陣,之后就能夠舍棄一些能量較小的分量了(對角線上的元素 反映的是方差,也就是交流能量)。特別是在模式識別領域,當模式向量的維數過高時會影響識別系統的泛化性能,常常須要做這種處理。
3、必須注意的是,這里所得到的式(5)和式(6)給出的僅僅是隨機向量協方差矩陣真實值的一個預計(即由所測的樣本的值來表示的,隨著樣本取值的不同會發生變化),故而所得的協方差矩陣是依賴于採樣樣本的,而且樣本的數目越多,樣本在整體中的覆蓋面越廣,則所得的協方差矩陣越可靠。
4、如同協方差和相關系數的關系一樣,我們有時為了可以更直觀地知道隨機向量的不同分量之間的相關性到底有多大,還會引入相關系數矩陣。在概率論和統計學中,相關或稱相關系數或關聯系數,顯示兩個隨機變量之間線性關系的強度和方向。在統計學中,相關的意義是用來衡量兩個變量相對于其相互獨立的距離。在這個廣義的定義下,有很多依據數據特點而定義的用來衡量數據相關的系數。
對于不同數據特點,能夠使用不同的系數。最經常使用的是皮爾遜積差相關系數。其定義是兩個變量協方差除以兩個變量的標準差(方差)。
皮爾遜積差系數
數學特征
當中,E是數學期望,cov表示協方差。
由于μX = E(X),σX2 = E(X2) ? E2(X),相同地,對于Y,能夠寫成
當兩個變量的標準差都 不為零,相關系數才有定義。從柯西—施瓦茨不等式可知,相關系數不超過1. 當兩個變量的線性關系增強時,相關系數趨于1或-1。當一個變量添加而還有一變量也添加時,相關系數大于0。當一個變量的添加而還有一變量降低時,相關系數小 于0。當兩個變量獨立時,相關系數為0.但反之并不成立。 這是由于相關系數只反映了兩個變量之間是否線性相關。比方說,X是區間[-1,1]上的一個均勻分布的隨機變量。Y = X2. 那么Y是全然由X確定。因此Y 和X是不獨立的??墒窍嚓P系數為0?;蛘哒f他們是不相關的。當Y 和X服從聯合正態分布時,其相互獨立和不相關是等價的。
當一個或兩個變量帶有測量誤差時,他們的相關性就受到削弱,這時,“反衰減”性(disattenuation)是一個更準確的系數。
轉載于:https://www.cnblogs.com/mfrbuaa/p/3844817.html
總結
以上是生活随笔為你收集整理的协方差矩阵, 相关系数矩阵的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 4、2 核心组件
- 下一篇: 如何解决eclipse里面tomcat