应用多元统计分析
目錄
簡單介紹
研究對象
研究內容
圖示方法
1. 多元正態分布&參數估計
1.1?隨機向量
1.1.1 隨即向量基本概念
1.1.2?隨機向量的數字特征
1.2?多元正態分布
1.2.1 多元正態分布的基本概念
1.2.2 條件分布
1.3 隨機矩陣的正態分布
1.4 多元正態分布的參數估計
1.4.1 多元正態樣本的數字特征
1.4.2 參數的極大似然估計
2. 多元正態總體參數的假設檢驗
2.1 幾個重要的統計量
2.2 單總體均值向量的檢驗
2.2.1假設檢驗
2.2.2 通過似然比統計量進行假設檢驗
2.2.3 置信域
2.3 多總體均值向量的檢驗
2.4 協方差陣的檢驗
3. 回歸分析
4. 判別分析
4.1 距離判別法
4.1.1 距離的定義:
4.1.2 距離判別
4.2 貝葉斯判別法
4.2.1?先驗概率
4.2.2?廣義平方判別法
4.2.3 后驗概率
4.2.4 貝葉斯判別準則
4.3 費歇判別 Fisher
5. 聚類分析
5.1 距離
5.2 系統聚類法
5.2.1 系統聚類法的步驟
5.2.2 類間距離的定義
6. 主成分分析
6.1 總體的主成分
6.1.1 主成分的定義
6.1.2 求主成分
6.1.3 總體主成分的性質
6.1.4 主成分的貢獻率
6.2 樣本主成分
6.2.1 主成分得分
6.2.2 樣本主成分性質
7. 因子分析
7.1 因子模型
7.1.1 正交因子模型
7.1.2 統計意義
7.1.3 因子模型特性
7.2 參數估計方法
7.2.1 主成分法
7.2.2 主因子法
8. 對應分析方法
9. 典型相關分析
10. 偏最小二乘回歸分析
簡單介紹
研究對象:
p個變量的n次觀測組成的數據矩陣
研究內容:
(1) 降維問題(簡化數據結構)
比如因子分析、主成分分析等等
(2) 歸類問題(分類與判別)
比如聚類分析、判別分析等等
(3) 變量間的相互聯系
比如回歸分析、典型相關分析等等
(4) 多元數據的統計推斷
參數估計、協方差陣的假設檢驗問題。這里統計量巨多,每個統計量性質一大堆,麻煩死了。
(5) 多元統計分析的理論基礎
如研究多維隨機向量、多維正態隨機向量的分布和性質等等。是整個多元統計的基礎。
圖示方法:
一維二維三維都可以畫出來,但是更高維就難啦,因此可以選用其他作圖方法。
(1) 輪廓圖
橫坐標為p個變量,縱坐標為變量的觀測值大小,一條折線表示一組觀測。如下:
(2) 雷達圖
(3) 調和曲線圖
即將多維空間一個點對應于二維空間一條曲線。p維數據對應的曲線為:
(4) 散布圖矩陣
變量之間兩兩配對生成的散點圖矩陣,如下:
(6) 臉譜圖
1. 多元正態分布&參數估計
多元正態分布在多元統計里面非常非常重要,一方面是很多統計量都服從或是在大樣本的條件下近似服從正態分布,一方面是現在已經有了一套關于正態分布的統計推斷方法。
1.1?隨機向量
1.1.1 隨即向量基本概念
隨機向量:多元統計討論的多變量總體,即將p個隨機變量放在一起形成的p維隨機向量X=(X1,X2,...,Xp).
樣品:對p個變量做一次觀測得到觀測值(x1,x2,...,xp).
樣本數據陣:觀測n次,n個樣品構成一個樣本。將樣品排列成n*p矩陣,則構成了樣本數據陣。在具體觀測前,樣本數據陣是一個隨機陣。
隨機向量的聯合分布:p維隨機向量X=(X1,X2,...,Xp)'的聯合分布為p元函數F(x1,x2,...,xp)=P{X1<=x1,X2<=x2,...,Xp<xp}。如果X為連續性隨機向量,還對應存在聯合概率密度函數 f(x1.x2,...,xp)。
隨機向量的邊緣分布:隨機向量X的部分分量的分布稱作邊緣分布。
隨機向量的條件分布:如對于2維隨機向量X=(X1,X2),當給定X2時,稱X1的分布為條件分布。同樣,當X密度函數為f(x1,x2)時,給定X2時X1的條件密度函數為 f(x1|x2)=f(x1,x2)/f(x2),其中f(x2)為X2的密度函數。
獨立性:若F(x1,x2,...,xp)=F(x1)F(x2)...F(xp)
1.1.2?隨機向量的數字特征
(1) 均值向量:
稱 E(X) = (E(X1)...E(Xp))' = ()' 為隨機向量X的均值向量(若E(Xi)均存在)。
(2) 協方差矩陣:
若隨機變量Xi,Xj的協方差Cov(Xi,Xj)均存在,稱D(X)=E[(X-E(X))(X-E(X))']為隨機向量X的協方差陣。
(3) 隨機向量X和Y的協方差陣:
若Xi和Yj的協方差均存在,則稱COV(Xi,Yj)=E[(X-E(X))(Y-E(Y))]為隨機向量X與Y的協方差陣。若COV(X,Y)=O,則認為X,Y不相關。
隨機向量X的相關陣:
稱為相關陣,其中,而相關陣和協方差陣的關系可以如此表示——若記標準差矩陣為,則
均值向量與協方差陣的性質(E(X)與D(X)):與一維情況類似
(4) 均值向量與協方差陣的性質
a. 若A,B為常數矩陣,則
???? E(AX)=AE(X),
???? E(AXB)=AE(X)B,
???? D(AX)=AD(X)A',
???? COV(AX,BX)=ACOV(X,X)B'
b. 若X,Y相互獨立,則COV(X,Y)=O,即X,Y不相關;但反之不一定成立。
c. 隨機向量X的協方差陣D(X)是對稱非負定矩陣。即 D(X)>=0 。
d.?,其中L為非負定矩陣。
因為??,可以利用線代中實對稱矩陣的對角化定理,存在正交矩陣?,使得
當??時,也就是說?正定時,稱L為的平方根矩陣,記作,且此時存在非退化的p*p矩陣A,使得?,其中:
但若,一定存在p*q的矩陣A1,使得,其中:
,?為p*q正交陣 。?。
1.2?多元正態分布
1.2.1 多元正態分布的基本概念
(1) p維正態隨機向量定義:若U1,U2..Up為相互獨立且均服從標準正態分布的隨機變量,?為p維常數向量,A為p*q維常數矩陣,U=(U1,U2,...,Up)。
那么,稱??為p維正態隨機向量,其分布為p維正態分布,記作??。
(2) 性質1:若B為s*p常數矩陣,d為s維常數向量,,,那么Y=BX+d 是s維正態隨機向量,記作:
?
(3) 性質2:若??,,,則存在:
(4) 獨立性:接上,當?(即不相關)?是??? 相互獨立的充要條件。
因此類似的,若?,其中??為對角矩陣,則X1,X2,...,Xp相互獨立。
(5) X的部分數字特征:
a. 均值?
b. 方差?
(6) p維正態隨機向量的聯合分布
1.2.2 條件分布
(1) 定義:若??,,,則??給定時,?的條件分布為:
,且若為r維,?為p-r維,則此時??是 r 維正態隨機向量。
其中,?
?稱作條件期望,?為回歸系數,?稱作條件協方差陣。
(2) 性質1:
(3) 性質2:
條件協方差陣??=,其中??稱作??給定時 Xi和Xj的偏自相關系數。
1.3 隨機矩陣的正態分布
(1) 隨機矩陣 :
其中,?為一個樣本,即p維向量一組觀測值。
(2) 拉直運算:,即將矩陣X的列一個接一個拉成一個np維的長向量。如果想要將樣品一個一個連起來,那么應該記作 Vec(X') 。
注意:對稱矩陣的拉直運算??是將矩陣拉直成 p(p+1)/2 維向量,因為對稱矩陣里不是含p*p個隨機向量而是含p(p+1)/2個。(即拉直對稱矩陣的一個三角形區域。)
(3) Kronecker積
(4) 隨機矩陣的正態分布
設隨機矩陣中的??為p維隨機向量的一個樣品,易得 :
1.4 多元正態分布的參數估計
1.4.1 多元正態樣本的數字特征
(1) 樣本均值向量
(2) 中心化數據陣
(3) 樣本離差陣
(4) 樣本離差陣
? 或者,
(5) 樣本相關陣
1.4.2 參數的極大似然估計
設??為p維正態總體??的隨機樣本,可以用極大似然法來求未知參數??。
將隨機數據陣X按行拉直,得到拉直矩陣Vec(X'),而拉直矩陣的聯合密度函數(即樣本的聯合密度)可以看作關于?的函數,稱作?的似然函數,記作??。我們要做的就是找出使得該聯合密度函數最大的?。
經過一系列計算得到:
?性質:
(1)?
(2)?,其中,Zk為獨立的,且同標準正態分布。
(3)??相互獨立
(4)?
2. 多元正態總體參數的假設檢驗
2.1 幾個重要的統計量
類似于一元正態總體參數的假設檢驗里面需要卡方分布、t分布、F分布一樣,多元正態總體參數假設檢驗里面也需要利用一些分布。
2.2 單總體均值向量的檢驗
2.2.1假設檢驗
關于正態總體均值的檢驗大致有以下三種,我們這里主要討論第一種,即單總體均值向量的檢驗。
(1) 當?已知時
因為已知??,
提出假設:原假設??
在原假設下構造統計量:
給定顯著性水平α,進行檢驗:
a. 法一:
查表得到卡方統計量的臨界值,若??則拒絕原假設,認為?和?之間有顯著差別。
b. 法二:
通過計算p值得到檢驗結果。如果通過樣本計算得到 ?的值為d,則p值為?>d 的概率。若p<α,則拒絕原假設。
(2) 當??未知時
提出假設:原假設??
在原假設下構造統計量:
?
可以利用F分布和T2分布之間的關系:
2.2.2 通過似然比統計量進行假設檢驗
p維正態總體密度函數為?,其中,為未知參數。
提出假設:? ?
從總體中抽取n個樣本 ,樣本的聯合密度函數???即稱作樣本的似然函數,記作???。
構造統計量:
?,顯然,這是關于樣本 的函數,稱作似然比統計量。
如果取值太小則說明原假設為真時觀測到此樣本的概率比不為真時觀測到的概率小得多,因此應該拒絕原假設。
拒絕域為:
有些??存在精確分布,但有些分布還是未知的,那么未知的情況怎么辦呢?
經過前人不斷實驗,我們現在已知,在大樣本下,有:
?,其中,f 為??的維度減去??的維度。
2.2.3 置信域
當??未知時,原假設???下有統計量:
?
F分布和T2分布之間的關系:
因此,均值向量 ?置信度為1-α的置信域為:
即若??落入置信域,則可以在顯著性水平為 α的情況下接受原假設。
2.3 多總體均值向量的檢驗
(1) 兩總體的協方差矩陣相等但未知時
設??來自總體??的樣本;?為來自總體?,X,Y相互獨立。
提出假設:?
構造統計量:
由F分布和T2分布的關系有:
隨后進行F檢驗即可啦。
(2) 兩總體協方差陣不相等時
其實也沒有啥好辦法啦。
a. 當樣本個數m=n時,可以把樣本作為成對數據處理。構造?,則回到了單總體均值假設檢驗問題。
b. m和n不相等時,構造新總體Z的樣本?如下:
(3) 多個總體均值檢驗
也稱多元方差分析。
a. p=1時
設有k個一元正態總體??,分別從k個總體中提取 個樣本:
提出假設:?
寫出一些相關的樣本均值:
總偏差平方和:
組內偏差平方和:
組間偏差平方和:
SST不變的時候,如果原假設成立,那么組間偏差平方和應該比較小,也即SSA/SSE應該比較小。
構造統計量:
給定顯著性水平α,若??,則拒絕原假設。
b. p>1時
設有k個p元正態總體??,分別從k個總體中提取 個樣本:
提出假設:?
寫出一些相關的樣本均值:
組內離差陣:
組間離差陣:
總離差陣:
構造統計量:
給定顯著性水平α,查表找到臨界值?,若?,則拒絕原假設。
2.4 協方差陣的檢驗
設??為p維正態總體?的隨機樣本。
提出檢驗:?(為一已知協方差陣)
(1) 當??時
利用似然比原則構造檢驗統計量:
由之前的知識,不難得到:
故分子的自由度為p,分母的自由度為p+(p+1)p/2,因此f=(p+1)p/2 。
已知在大樣本下:
因此,在顯著性水平α下,查表得到臨界值??,若?,則拒絕原假設。
(2) 當?時
存在正定矩陣,使得?,令?,則?,對??的協方差矩陣進行類似(1)的過程即可。
3. 回歸分析
略
4. 判別分析
用于判別樣品屬于哪個總體的問題。
4.1 距離判別法
思想:樣本離哪個總體近,就判其屬于哪個總體。
4.1.1 距離的定義:
(1) 用dij表示樣品??和??之間的距離,應該滿足:
a.?,等號成立僅當?;
b.?
c.?
定義dij的方法有很多,考量優缺點之后我們選用馬氏距離法。
(2) 馬氏距離:
設總體G為m維總體,均值向量為?,協方差陣為?,則樣品與總體的馬氏距離定義為:
當m=1時,
4.1.2 距離判別
設有k個總體Gi (i=1,2,...,k),來自總體Gi的訓練樣本為:
,其中,ni為第i個總體Gi的樣品個數。
因此均值向量??的樣本估計量為:
反映分散性的協方差陣??的樣本估計量為:
,也稱作組內協方差陣,其中Ai稱作組內離差陣。
其中,?
如果假定i個總體的協方差陣一樣,則協方差陣的估計量為:
其中,
(1) 兩總體判別 (當協方差陣相等時)
分別計算樣品到兩個總體的距離,離哪個總體近,則歸屬于哪個總體。
簡化馬氏距離公式:
因此,比較樣品到各總體的馬氏距離時,實際上只需要計算線性判別函數:
則按距離最近的判別原則,有:
或者,也可以考察樣品到兩個總體的馬氏距離之差,也稱判別函數:
據此,判別準則也可以表示為:
錯判概率:
(2) 兩總體判別 (當協方差陣不相等時)
就分別算出樣品到每個總體的馬氏距離在比較大小即可,只不過和上面的差別是馬氏距離不能化簡了。
(3) 多總體判別
其實就類似于兩總體判別,也可以分總體協方差相等和不等的兩種情況。
4.2 貝葉斯判別法
距離判別法雖然簡單方便,但是沒考慮總體出現的機會即先驗概率,以及錯判會造成的損失,因此我們繼續引出貝葉斯判別法。
4.2.1?先驗概率
設有k個總體,在抽取樣品作判別分析之前,已知這k個總體出現的概率分別為 q1,q2,...,qk,且q1+q2+...+qk=1 。而這組概率就稱作先驗概率,是一組權重。
貝葉斯判別準則要求提供這組概率的值。
賦值方法:
(1) 利用歷史資料and經驗
(2) 按照訓練樣本中各類樣品所占比例 (要求隨機抽樣)
(3) 假定 q1=q2=...=qk=1/k
4.2.2?廣義平方判別法
在正態總體的假設下,按照貝葉斯判別的思想,且認為錯判造成的損失相等,此時的判別方法稱作廣義平方判別法。
其實就是馬氏距離判別法在考慮先驗概率以及協方差不等之后的推廣。
定義樣品X到第t個總體Gt的距離為:
其中,?為馬氏距離,
當各總體的協方差均相等時為0,即:
當各總體的先驗概率均相等時為0,即:
4.2.3 后驗概率
即條件概率,當樣品X已知時,它屬于總體Gt的概率,記為 P(Gt|X) 。
如果Gt的密度函數為,則有
??
4.2.4 貝葉斯判別準則
給空間一個劃分D(即一個判別準則),如果通過這個劃分來判別時平均損失最小,則稱這個劃分D為貝葉斯判別的解。進行時要求該處錯判概率、錯判損失。
當錯判損失相等時,廣義平方判別法即為貝葉斯判別的解。
擴展內容:
4.3 費歇判別 Fisher
思想:將k組m維數據投影到某一方向,使得組與組之間盡可能分開(可以用一元方差分析判斷是否分開),利用方差分析導出判別函數。
5. 聚類分析
對樣品或者指標進行分類。
R型聚類分析:對指標進行分類。用處是可以了解變量之間的親疏關系,對變量進行分類,在每一類中選出典型變量進行回歸分析等等。
Q型聚類分析:對樣品進行分類。是本章節主要將討論的問題。
5.1 距離
我們通常使用距離來描述樣品之間的親疏關系。
對n個樣品計算兩兩之間的距離dij后,可以排列成矩陣D:
其中,dij越小,表明兩個樣品越接近。
(1) 歐氏距離
聚類分析中運用最多的。
5.2 系統聚類法
設有n個樣品,每個樣品均有m個指標。
5.2.1 系統聚類法的步驟
數據預處理:對數據進行中心化變換等等。并選擇要使用的定義樣品間距離的方法,如歐氏距離,以及定義類與類之間距離的方法,如最短距離法。
(1) 計算樣品兩兩之間的距離,得到初始距離矩陣??。
(2) 將n個樣品各成一類,此時類間距離就是樣品間距離,即?。
(3) 按照最小距離的原則,合并類間距離最小的兩個為一個新類,得到新的類間距離??。
(4) 重復步驟(3)知道類的個數為1.
(5) 畫出譜系聚類圖。
(6) 寫出分類的個數以及對應類的成員。
5.2.2 類間距離的定義
(1) 最短距離法
定義類的距離為兩類中最近樣品的距離;
(2) 最長距離法
定義類的距離為兩類中最遠樣品的距離;
(3) 中間距離法
若將Gp和Gq合并為新類Gr之后,計算新類與其他類Gk的距離方法如下:
常取??。
(4) 重心法
每個類的重心即該類樣品的均值。
若將Gp和Gq合并為新類Gr之后,他們所包含的樣品個數分別為 np,nq,nr,重心分別為
計算新類與其他類Gk的距離方法如下:
d(X1,X2)為計算樣品間距離的方法。
(5) 類平均法
定義類間距離為兩類樣品兩兩之間的平均平方距離。
若將Gp和Gq合并為新類Gr之后,計算新類與其他類Gk的距離方法如下:
(6) 可變類平均法
(7) 可變法
即可變平均法中 np=nq 時。
且當?時,稱作相似分析法MCQ。
(8) 離差平方和法
要求樣品間距離為歐氏距離。
統一的公式:
6. 主成分分析
思想:降維。即將多個指標重新組合為幾個互不相關綜合指標,盡可能多地反映原本信息。
6.1 總體的主成分
6.1.1 主成分的定義
設有p維隨機向量?,考慮其線性變量:,其中ai為常數向量,?。?
(1) 第一主成分:
若存在?a1'a1=1 使得Z1的方差達到最大,則稱Z1為第一主成分。
Z1的方差越大,表示Z1包含的信息越多,但是也需要一些限制,否則方差可能趨于無窮,而我們最常用的限制就是 a1'a1=1 。
(2) 第二主成分:
因為不希望載Z1中出現過的信息又出現在Z2里面,因此?。此外,在a2'a2=1的限制下,使得 ?最大的?稱作第二主成分。
類似可求其余主成分。
(3) 主成分性質
由于X是p維的,因此對應有p個主成分,每個主成分均是原變量的線性組合。
不同主成分是正交的,即互不相關。
6.1.2 求主成分
求第一主成分主要就是求a1,這是條件極值問題,可以采用拉格朗日乘法
即??
因為a1不等于0,易得?,于是又成了求特征根和特征向量的問題。
若?為??最大特征根,則其對應的單位特征向量即為a1 。
與此類似,若?,對應的正交單位特征根為 a1,a2,...,ap,因此第i個主成分為:
。此時 Zi 的方差??。
6.1.3 總體主成分的性質
若Z=(Z1,Z2...Zp)',Z=AX,則其性質有:
(1)?
(2)??,等號前面為原總體X的總方差。
(3)主成分Zk和原變量Xi的相關系數(因子負荷量)
(4)?
(5)?
6.1.4 主成分的貢獻率
(1) 貢獻率:稱??為主成分 Zk 的貢獻率
(2) 累計貢獻率:稱?為前m個主成分的累計貢獻率。表示m個主成分提取了多少信息。
一般累計貢獻率需要達到百分之七八十即可。
(3) 定義前m個主成分對變量Xi的貢獻率
6.2 樣本主成分
通常協方差未知,需要通過樣本估計。
若樣本協方差陣記為S,樣本相關陣記為R,當每個變量的觀測數據是均已標準化(均值為0),則S=R。
6.2.1 主成分得分
若第i個主成分為? ,則將第t個樣品觀測值代入Zi中,得到樣品t第i個主成分的得分。記作:
稱??為樣品t的主成分得分向量。
n個樣品構成主成分得分陣 Z 。
6.2.2 樣本主成分性質
(1) 主成分得分陣的樣本協方差陣
(2) 樣本主成分具有使殘差平方和最小的優良性質
(3) 樣本貢獻率
因此有??,故而累計貢獻率為??
6.2.3 主成分個數
(1) 累計貢獻率達到一定程度。
(2) 計算樣本協方差陣特征根均值,取大于均值的那部分特征根對應的主成分。
兩個方法常常結合使用。
7. 因子分析
是主成分分析的推廣,是一種降維的方法,將多個變量綜合為少數幾個因子,以再現原始變量和因子之間的相關關系。
R型:研究變量之間的相關關系,用以對變量進行分類。
Q型:研究樣品之間相關關系,找出控制樣品的幾個主要變量。
7.1 因子模型
7.1.1 正交因子模型
p維隨機向量??為可觀測的隨機向量,且?;
m維隨機向量??為不可觀測的隨機向量,且 ;
p維隨機向量?與F相互獨立,且??;
假定:
(1) 公共因子Fi互不相關,且
(2) 特殊因子互不相關,且?
(3) 特殊因子與公共因子不相關。
正交因子模型如下:
用矩陣表示為??。
其中,F1,...,Fm稱作X的公共因子,稱作X的特殊因子。公共因子對X每個分量均有作用,而特殊因子只對Xi有作用。
A稱作因子載荷矩陣,為待估的系數矩陣。aij稱作第i個變量在第j個因子上的載荷,即因子載荷。
正交因子模型的協方差結構:
因此得到?。
因此得到??,故A中元素aij可以解釋Xi和Fj之間的相關性。
稱?,?為正交因子模型的協方差結構。
因此,可以算出樣本協方差,再根據樣本協方差求出A,D,從而預測公共因子F1,F2...Fm。
7.1.2 統計意義
(1) 若數據經過了標準化處理,則??。
因為??。此時aij就是第i個變量和第j個因子之間的相關系數。
(2) 變量共同度
即Xi的方差由兩部分組成,一部分是公因子方差,一部分是特殊方差。如果公因子方差比較大則表明Xi對公因子的依賴程度較大。
實際上,公因子方差即因子載荷矩陣A各行的元素平方和,也稱作變量Xi的共同度,記作:
(3) 公共因子的方差貢獻
因子載荷矩陣A各列的元素平方和表示公共因子Fj對所有變量的總影響。可以衡量公共因子的重要性。
?越大則表明因子Fj對X的貢獻越大。
7.1.3 因子模型特性
(1) 不受量綱影響
(2) 因子載荷矩陣A不唯一
7.2 參數估計方法
7.2.1 主成分法
7.2.2 主因子法
8. 對應分析方法
9. 典型相關分析
10. 偏最小二乘回歸分析
總結
- 上一篇: python自动填表单_用python-
- 下一篇: 【学习笔记】matlab进行数字信号处理