多元统计分析最短距离法_多元统计分析方法
Ch1 基本概念
x1
1.多元總體:該總體有多個(gè)屬性,可表示為X=…,考察一個(gè)P元總體即是考察這個(gè)總體中每
xp個(gè)對(duì)象的P個(gè)屬性。
x11,x12,…,x1n
…2.多元樣本數(shù)據(jù):X= x1,x2…xn = xp1,xp2,…,xpn
3.多元總體的樣本統(tǒng)計(jì)參數(shù): 3.1 單總體
3.1.1 分屬性行樣本統(tǒng)計(jì)參數(shù) 樣本平均值向量:
中心化數(shù)據(jù):原始數(shù)據(jù)-平均數(shù)
標(biāo)準(zhǔn)化數(shù)據(jù)=中心化數(shù)據(jù)/該行樣本標(biāo)準(zhǔn)差
樣本離差矩陣Q:Q=XX’,即兩兩中心化屬性行乘積和,qαβ= nx xβi?x (1≤αβ1 xαi? α,β≤p)
樣本協(xié)方差矩陣S:S=Q/n=XX’/n(n為樣本數(shù))
樣本相關(guān)矩陣R:用X中的兩行計(jì)算兩屬性間的相關(guān),rαβ=
=
3.1.2 樣本間統(tǒng)計(jì)參數(shù)
各種距離:歐氏距離,馬氏距離,B模距離,絕對(duì)距離,切比雪夫距離 相似系數(shù):
定量:用X中的兩列算出的相關(guān)系數(shù);夾角余弦cαβ=′p 1
xαi2 1
xαj
2
定性:首先轉(zhuǎn)化為0,1型定性數(shù)據(jù);對(duì)于p元總體的變量α,兩樣本單元i,j配對(duì)情況有四種
(1,1),(1,0),(0,1),(0,0),分別用a,b,c,d表示所有變量中這四種情況出現(xiàn)的次數(shù)。顯然a,d出現(xiàn)的次數(shù)越多,兩樣本越接近。由此定義匹配系數(shù):fij=fij=
a+dp
=1?
絕對(duì)距離
p
3.2 兩總體(樣本數(shù)均為n)
c11,c12,…,c1q
…兩組樣本的協(xié)方差矩陣:Yp×n,Xq×n,Y與X的協(xié)方差矩陣cov y,x ==cp1,cp2,…,cpq′Y,X中心化數(shù)據(jù)),其中cαβ=n ny xβi?x (α≤p,β≤q),注意αβ1 yαi? 兩個(gè)樣本的協(xié)方差一般不對(duì)稱,即cαβ≠cβα。
1
Ch2 主分量分析 2.1主分量分析
2.1.1原理:從變量著手分析,將原來(lái)多個(gè)指標(biāo)化為少數(shù)幾個(gè)相互獨(dú)立的綜合指標(biāo)的一種統(tǒng)計(jì)方法。
2.1.2數(shù)學(xué)表示:原變量X經(jīng)正交變換U得到Y(jié),Y=UX,使y1,yi,…,yn獨(dú)立,且yi在所有與y1,y2,…,yi?1獨(dú)立的隨機(jī)變量中,yi具有最大方差。至于如何求U,事實(shí)上,所謂的最大方差即D x =n n xβi?x 的特征根,U’的第j列向量即為λjαβ1 xαi?x的特征向量。
2.1.3 求解正交變換:實(shí)際中無(wú)法得到D(x),而是利用樣本方差Sx來(lái)求正交變換。
2.1.4 貢獻(xiàn)率:代表樣本點(diǎn)在這個(gè)主分量方向上的分散程度,若其值很小,表示樣本在該方向上的分散很小,這個(gè)主分量在分析樣本數(shù)據(jù)時(shí)所起作用不大。ηj=
λj
S11+S22+。。。+Spp
λj
λ1+λ2+。。。+λp
1
=
j=1,2,…,p (Sii為Sx主對(duì)角線上元素)
2.1.5 因子負(fù)荷量:主分量yk與原分量xj相關(guān)系數(shù)稱為第j因子在第k個(gè)主分量上的負(fù)荷量。幾何解釋為原坐標(biāo)上單位長(zhǎng)度在某個(gè)主坐標(biāo)軸上的投影長(zhǎng)度。其樣本估計(jì)值為r(λk?xj)=
2.2 R分析:從標(biāo)準(zhǔn)化數(shù)據(jù)出發(fā)的主分量分析。 2.3 q分析:從樣本著手分析,
2.3.1原理 :壓縮樣本,找出典型的綜合樣本
′X= p2.3.2 數(shù)學(xué)表示:仍然先求樣本間的相似系數(shù),Qnn i,j =X i xαj?x j 1 xαi?x
p
1
再找V使得VQV’為對(duì)角矩陣,令Y=x v′即得綜合樣本中的主分量。
2.4 R型分析與Q型分析的聯(lián)系
令R=XX’,Q=X’X,u,v分別為R,Q對(duì)應(yīng)λ的單位特征向量 2.4.1 R,Q的非零特征根相同 2.4.2 v=αX’u, u=βXv
Ch3 其他簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)及樣本排序方法 3.1 主坐標(biāo)分析
3.1.1 原理:構(gòu)造坐標(biāo)系,任兩個(gè)樣本在主坐標(biāo)系中的歐氏距離等于事先給定的抽象距離。 3.1.2 數(shù)學(xué)方法:有原始點(diǎn)對(duì)間的距離mij出發(fā),根據(jù)兩者變換關(guān)系,計(jì)算出每一樣本點(diǎn)在新坐標(biāo)系下的坐標(biāo)為aij的矩陣A;求出A的特征根與特征向量Vi;令C= V 3.2 主坐標(biāo)分析與距離的關(guān)系
并非任意給定的距離矩陣M均可找到其主坐標(biāo)。 3.2.1 歐氏距離
從原始數(shù)據(jù)出發(fā),采用歐氏距離計(jì)算M,主坐標(biāo)分析與主分量分析相同 3.2.2 絕對(duì)距離
從原始0,1數(shù)據(jù)出發(fā),按匹配系數(shù)決定的距離構(gòu)成M,主坐標(biāo)與主分量相同 3.2.3 B模距離:主坐標(biāo)分析總有解。 3.3 數(shù)量化方法:
3.3.1 原理:方差分析的方法(總方差固定條件下樣本間方差最大化)同時(shí)排列樣本與變量 3.3.2 數(shù)學(xué)方法:有原始陣求行和gj,列和fi 按公式計(jì)算Xji,A=XX’ 求特征根,特征向量,
按公式計(jì)算變量得分與樣本得分,所謂得分即是新坐標(biāo)下的坐標(biāo)值。
Ch4 聚類(lèi)分析 4.1 聚類(lèi)方法 兩種分類(lèi)方案:
系統(tǒng)聚類(lèi)方法:n個(gè)樣本分n類(lèi),找最相近的合并至只有k個(gè)類(lèi)。 系統(tǒng)分類(lèi)法見(jiàn)表
最優(yōu)分割法:類(lèi)似于離差平方和法
Step1:定義類(lèi)的直徑——該類(lèi)樣本的離差平方和 Step2:定義誤差函數(shù):各類(lèi)直徑之和D Step3:最小化誤差函數(shù)下的遞推公式:f(p(m,n))=min(f(p(m-1,j-1))+D(j,n)),n個(gè)樣本分成m類(lèi)的最優(yōu)分法,可看成j-1樣本分成m-1類(lèi)的最優(yōu)分法再加上最后(n+1-j)樣本形成的m類(lèi)樣本合并而成。j可由m一直變到n,從中挑選出最優(yōu)的j。 Step4:聚類(lèi)。
最優(yōu)分割法需要兩張表:類(lèi)直徑一覽表D;最小誤差函數(shù)表f,根據(jù)類(lèi)別數(shù),i可分別取到2,3,。。。,m.總樣本數(shù)j為2,3,4….n。根據(jù)遞推公式求出不同配對(duì)(i,j)下的f(p(I,j))進(jìn)行不同i下的分類(lèi)。
Ch5 兩組變量之間關(guān)系
5.1 典型相關(guān)分析:把原來(lái)較多變量化為少數(shù)幾個(gè)典型變量,通過(guò)這幾個(gè)典型變量間典型相關(guān)系數(shù)來(lái)綜合描述兩個(gè)多元隨機(jī)變量間關(guān)系的數(shù)學(xué)方法。 給出計(jì)算方法;
Step1:將n個(gè)樣本得到的二組原始矩陣Xpn,Yqn標(biāo)準(zhǔn)化,計(jì)算X,Y的相關(guān)矩陣Sxx,Syy,Sxy Step2:計(jì)算Sxx?1Sxy,Syy?1Syx Step3:D=Syy?1SyxSxx?1Sxy
Step4:求D的前k個(gè)特征根λj和特征向量v ,令歸一化后為vj=Step5:令uj=
1λj
1cj
v j,其中cj=v j′Syyv j
Sxx?1Sxyvj, uj,vj為相應(yīng)于λj的一對(duì)典型變量的系數(shù)。
Step6:計(jì)算典型變量:zj=u′jx,wj=vj′y,(j=1,2,…,k)
5.2 多元線性回歸
X ′, Lxy=X Y ′=Lxy′, X ,Y 為中心化數(shù)據(jù) Step1:離差矩陣Lxx=X
Step2:計(jì)算系數(shù)矩陣B和常數(shù)項(xiàng)向量b0: LxxB′=Lxy,b0=y ?Bx ,y ,x 分別為X,Y的平均數(shù)。 Step3:計(jì)算剩余離差矩陣Q=Lyy?BLxy,計(jì)算剩余協(xié)方差矩陣S=Q/(n-q-1);
Ch6 特殊分布
6.1 多元正態(tài)分布和χ2分布
明確幾個(gè)從一維到多維推廣的基本概念
6.1.1多維正態(tài)變量的定義是從一維正態(tài)分布定義而來(lái)的:x是p維隨機(jī)變量,對(duì)任意p維向量a, x的線性函數(shù)y=a’x是遵從一維正態(tài)分布的隨機(jī)變量,則稱x是遵從p維正態(tài)分布的隨機(jī)變量。記平均向量為u,協(xié)方差矩陣為 σ2的p維正態(tài)變量x為x~Np(μ, σ2). 多維正態(tài)分布的性質(zhì):
1.若x~Np(μ, σ2),則對(duì)任意p維常向量a,有
a′x~N1 a′μ,a′ σ2 a ;
2.若x~Np(μ, σ2),A是qp矩陣,則
Ax~Nq Aμ,A σ2 A′
3. 若x~Np(μ, σ2),對(duì)p維常向量a,有
x?a~Np μ?a, σ2
4. Ax與Bx相互獨(dú)立的充要條件是cov(Ax,Bx)=A σ2 B’=0
5.若x1,x2,..,xk是相互獨(dú)立的p維正態(tài)變量,xi~Np μi, σi2 ,則對(duì)任意常數(shù)
kk22
a1,a2,..,ak, k1aixi~Np 1aiμi, 1aiσi
6.1.2 正態(tài)樣本矩陣
x1,x2,..,xn是相互獨(dú)立的p維隨機(jī)變量,服從同一正態(tài)分布,則Xpn=[x1,x2,..,xn]稱為正態(tài)樣本矩陣
定理6.1:對(duì)于Xpn,若其中各向量滿足xi~Np μi, σi2 ,則有以下兩個(gè)性質(zhì):
1.對(duì)任意p維向量a,X′a~Nn a′μ1n,a′ σ2 aIn , ,X′a為n個(gè)樣本的各指標(biāo)間的線性組合,其各分量相互獨(dú)立。
2.對(duì)任意n維向量b, Xb~Np (1n′b)μ,bb′ σ2 ,Xb為p個(gè)指標(biāo)各樣本間的線性組合,其各分量一般不相互獨(dú)立。
6.1.3 多元正態(tài)分布與χ2分布的關(guān)系
定理6.2:xi~Np 0, σi2 ,則二次型x′ σ2 ?1x~χ2(p)
6.1.4 χ2分布的幾條重要定理
定理6.3:若x′=[x1,x2,..,xn]~N1(0,σ2I),A是nn對(duì)稱冪等陣,秩為r,則x′Ax~σ2χ2(r) 定理6.4:若x′= x1,x2,..,xn ~N1 0,σ2I ,若A是對(duì)稱冪等陣,B為任意矩陣,BA=0,則正態(tài)分布Bx和χ2分布x′Ax相互獨(dú)立;若AB都是冪等陣,AB=0,則x′Ax與x′Bx相互獨(dú)立。 6.2維希特分布:χ2分布在多元統(tǒng)計(jì)變量中的推廣
6.2.1 維希特分布定義:n個(gè)p維變量x1,x2,..,xn~Np(0,σ2I),Xpn=[x1,x2,..,xn]是樣本矩
2
陣,則Wpp= n1xjxj′=XX′的分布為自由度為n的p維維希特分布,記為Wp(n, σ ) 6.2.2 維希特分布與χ2分布的關(guān)系
x~Np 0, σ2 x1,x2,..,xn是其n個(gè)樣本,任取一個(gè)p維向量a,則定義y=a′x~N1 0,a′ σ2 a ,則有y1=a′x1,y2=a′x2,…,yn=a′xn是總體y的n個(gè)樣本。按χ2分布
n22′22′22
的定義:Q= n。 1yj~a σ aχ(n),而Q= 1yj=a’XX’a=a’Wa,故a’Wa~a σ aχ(n),定理6.5:W服從維希特分布W(n, σ2 )的充要條件是對(duì)任意p維向量a,二次型Q=a’Wa~a′ σ2 aχ2(n) 6.2.3維希特分布的性質(zhì)
定理6.6:若Ann是對(duì)稱冪等陣,秩為r, x1,x2,..,xn~Np 0, σ2 且相互獨(dú)立,令Xpn=[x1,x2,..,xn]是樣本矩陣,則XAX’ ~WP(r, σ2 )
定理6.7:x1,x2,..,xn~Np 0, σ2 且相互獨(dú)立,Xpn=[x1,x2,..,xn]是樣本矩陣,對(duì)任意n維向量a與對(duì)稱冪等陣Ann,若Aa=0, 則正態(tài)分布Xa和維希特分布XAX′相互獨(dú)立;若AB都是冪等陣,AB=0,則XAX′與XBX′相互獨(dú)立。 6.2.4 樣本離差矩陣的分布
x~Np μ, σ2 x1,x2,..,xn是其n個(gè)樣本,Xpn=[x1,x2,..,xn]是樣本矩陣,樣本離差矩陣定
11′ (I?111′)X ′,其中 義為:Qpp=X(I?n11′)X′= XX=X?μ1,(I?11′)是對(duì)稱冪等陣,秩為nn
n-1,則由定理6.6有Qpp~Wp n?1, σ2 。即由p元正態(tài)總體中抽出n個(gè)樣本,則其樣本離差平方和矩陣Q服從自由度為n-1的p維維希特分布。 6.3 統(tǒng)計(jì)量T2和Λ
6.3.1 統(tǒng)計(jì)量T2是一元t分布的推廣:若W~WP(n, σ2 ), y~Np 0,c σ2 ,c為一正常數(shù),W與y相互獨(dú)立,稱統(tǒng)計(jì)量T2=cy′W?1y是自由度為(p,n)的T2變量。 定理6.8:若T2變量服從T2(p,n),則有
n?p+1np
n
T2~F p,n?p+1
6.3.2 總體平均值的估計(jì)值與置信區(qū)域
x~Np μ, σ2 x1,x2,..,xn是其n個(gè)樣本,Xpn=[x1,x2,..,xn]是樣本矩陣,μ的無(wú)偏估計(jì)
σ 11
x =Xpn1, x ?μ= X1~Np 0,, Qpp~Wp n?1, σ2 ,且x ?μ與Q相互獨(dú)立,則 nnn
2
T2=n n?1 x ?μ ′Q?1(x ?μ) 自由度為(p,n-1)的T2變量,故中,
n?pp
n?1 ?p+1(n?1)p
T2~F p,n?p ,實(shí)際
x ?μ ′S?1(x ?μ)~F p,n?p ,其中S=Q/n是樣本協(xié)方差矩陣。
pF
應(yīng)用:給定置信度α,即可求置信區(qū)域?yàn)?x ?μ ′S?1(x ?μ)≤n?α p
6.3.3 廣義方差:p維隨機(jī)變量x的協(xié)方差矩陣為 σ2, σ2 為廣義方差。 6.3.4 Λ統(tǒng)計(jì)量:F統(tǒng)計(jì)量的推廣
Λ統(tǒng)計(jì)量:W1~WP n1, σ2 ,W2~WP n2, σ2 ,Λ= W當(dāng)p=1時(shí),Λ=Q
Q1
1+Q2
W1
1+W2
(p, n1,n2)的Λ分布
=
11+F
n1
Λ統(tǒng)計(jì)量的分布:當(dāng)p>8, n2
p+n2?1
2
v=?(n1+n2?
p+n2?1
2
Λ p,n1,n2
ch7 假設(shè)檢查和方差分析
7.1 兩總體平均向量的假設(shè)檢查
7.2 協(xié)方差矩陣的檢查
最大似然比:沒(méi)有限制條件時(shí)最大似然值為FΩ,增加假設(shè)參數(shù)間的關(guān)系也即增加了限制條件,在滿足限制條件下求最大似然值Fω,引入統(tǒng)計(jì)量λω=
FωFΩ
λω定義為最大似然比。Λω
越接近1,說(shuō)明在加上假設(shè)的限制條件后與不加假設(shè)一樣 ,說(shuō)明假設(shè)的限制條件是實(shí)際存在的,也即假設(shè)
的關(guān)系符合實(shí)際
總結(jié)
以上是生活随笔為你收集整理的多元统计分析最短距离法_多元统计分析方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 海湾汉字编码表全部_汉字区位码对照查询表
- 下一篇: 计算机网络基本原理