【多元统计分析】课程总结
參考文獻:《多元統計分析》高慧璇 編著 ,北京大學出版社
剛考完,做個總結,意在搭個學習《多元統計分析》的簡單架子,方便日后復習,雖然只學了一點皮毛,但是架不住老年人的腦子(“好記性,不如爛blog”)。其中,具體內容和公式不再一一陳述(據說,Latex是阻止人類文明進步的絆腳石。。)
一句有用的廢話:學習多元統計的時候,要多思考一元統計。
一元統計里面正態分布是重中之重,這是因為后續的參數估計、假設檢驗等都是圍繞它展開的,具體如:卡方分布、F分布、t分布等等。那么對應到多元中,多元正態分布也是核心,類似地衍生出威沙特(Wishart)分布、威爾克斯(Wilks)分布、霍特林(Hotelling)T2T^2T2分布(對應于一元的卡方分布、F分布、t分布)。其中,會有很多細節,比如說霍特林分布是把一元的t統計量平方后再拓展到多元上的(這并不是很難理解,因為一元t統計量的分母需要開根號,對應到多元上是沒有根號的,所以想到平方。
關于似然比檢驗
在一元統計里面,似然比檢驗似乎并不太重要,但是在多元統計里,它可以用來各種檢驗(均值向量的檢驗、協方差陣的檢驗等等),主要理論是似然比原理。似然比統計量的構造:顧名思義,要有似然函數和比值,分子和分母差不多是同一個似然函數,主要區別在于:似然函數中參數的取值范圍,一個是原假設H0H_0H0?成立時的子參數空間,另一個是全參數空間。
非中心的分布可以用來計算第二類錯誤(β\betaβ,取偽錯誤);
矩陣的分布是指把矩陣拉直之后向量的分布,也就是說其實是沒有矩陣的分布,只有向量的分布……
👻似然比統計量在樣本容量n很大的時候,又會和卡方分布有著千絲萬縷的聯系……想不明白的話,可以想想一元做擬合優度檢驗的時候,峁詩松老師給了兩種做法,一個是卡方,另一個就是似然比檢驗,兩者等價,多元也適用。。。恕末將無能,只能解釋到這里……
關于回歸分析
值得注意的是,上面(4.1.2)和(4.1.3)雖然都是經典多元線性回歸模型,文書上又用“或”連接,但是二者并不等價。(4.1.3)明顯是比(4.1.2)要強的,因為(4.1.3)有分布,而(4.1.2)只是給出一些數字特征。
強有強的用處,(4.1.3)一般用于區間估計等(區間估計是需要知道分布才可以做的);
弱有弱的好處,(4.1.2)一般用于簡單的點估計。
參數的最小二乘估計中有個帽子矩陣,名字由來是那個紅色的式子,H像是給Y加了一頂帽子變成了Y^\widehat{Y}Y,所以稱為帽子矩陣……
關于判別分析
這里值得注意的是,判別分析是在分好類之后進行的,而且各類的分布特征已知。這是區別于聚類分析的地方。
做判別分析之前,要先看一下:類與類之間是否有顯著差異,不然就像“糾結是吃番茄好還是吃西紅柿好”一樣……
具體有距離判別法、貝葉斯判別法、費希爾判別法等。判別方法的結果是得到一個m維空間的劃分,再看看新樣品X是屬于哪一個劃分區域,然后可以知道它屬于哪一個類。
- 距離判別法的基本思想:樣品和哪個總體距離近,就判它屬于哪個總體,又稱“直觀判別法”。主要采用馬氏距離。
實際中,總體分布特征是未知的,于是一般會使用樣本去估計未知參數(均指向量、協方差矩陣)。需要注意,像一元統計一樣,總體方差是否齊性(是否相等) 會影響結果。于是,用來估計總體協方差的樣本協方差也要分【Σ1=Σ2\Sigma_1=\Sigma_2Σ1?=Σ2?】和【Σ1≠Σ2\Sigma_1\neq \Sigma_2Σ1??=Σ2?】的情況。
【Σ1≠Σ2\Sigma_1\neq \Sigma_2Σ1??=Σ2?】時:用合并的樣本協方差陣去估計總體協方差陣;
【Σ1=Σ2\Sigma_1=\Sigma_2Σ1?=Σ2?】時:用各自的樣本協方差陣即可。 - 貝葉斯判別法:
距離判別法只需要知道總體的一些參數或是特征(均指向量、協方差陣等)即可做,它沒有考慮各個總體出現的機會(即先驗概率)大小,也沒有考慮錯判損失。針對這些缺點,有了貝葉斯判別法,貝葉斯判別法需要先驗概率、錯判損失等等。
貝葉斯判別法在一些特定的情況下,體現為廣義平方距離判別法、后驗概率判別法。具體來說,如果給定錯判損失相等的前提,那么貝葉斯判別法就是后驗概率判別法;進一步地,如果給定正態總體的前提,后驗概率判別法就是廣義平方距離法。 - 費希爾判別法:
主要思想是投影。將k組m元數據投影到某一個方向上,使得投影后組與組之間盡可能地分開。而衡量組與組之間是否分得開的方法借助于一元方差分析的思想。最后化簡一下就是求組內離差陣和組間離差陣的廣義特征值問題。
關于聚類分析
事先不知道研究問題應該分為幾類,更不知道觀測的個體的具體分類情況,聚類分析通過對觀測數據分析處理,選定一個度量個體接近程度的量,確定分類數目,建立一種分類方法,并按照接近程度對觀測對象給出合理的分類。
對一批觀測對象,先用聚類分析進行分類,然后用判別分析的方法建立判別準則,用以對新的觀測對象進行判別歸類。
- 典型的有系統聚類法:開始每個對象各成一類,然后每次將最相似的兩類合并(距離最近的兩類),合并后重新計算新類與其他類的距離。這一過程一直繼續直到所有對象歸為一類為止。并類的過程可以用譜系聚類圖描述。
根據分類對象的不同,分為Q型(對樣品)、R型(對變量)。
類與類之間距離的定義有很多種,每一種都對應了不同的系統聚類法。
關于主成分分析
作用:降維,簡化數據結構等。
它的本質是對變量做線性變換,并沒有模型可言,這是區別于因子分析的地方(因子分析是有模型的,之后會詳細列一列二者的區別和聯系)。值得注意的是,通常不會取全部的主成分,只需要特征值比較大的那幾個主成分即可近似地反映全部原始變量的信息。
- 為什么是特征值這個量呢?
因為第i大的特征值對應第i個特征向量,也就是第i個主成分的系數向量。而第i個主成分的方差等于λi\lambda_iλi?.主成分的方差反映了的信息量,越大越好。特征值的所占比例,稱為“貢獻率”,反映了該特征值對應的那個主成分提取了原始變量的多少信息。至于累計貢獻率的概念,可想而知,就是前m個特征值所占比例,含義是前m個主成分提取了原始變量(?這里注意一下,是指全部的原始變量,視作一個整體)的多少信息。
上面?那里,很容易使人思考到:是不是應該還有一個量,用來反映某(幾個)主成分提取了某個特定原始變量的信息?于是,有了下面的定義(7.1.3).其中主成分和原始變量的相關系數,被定義為“因子載荷量”(又稱,因子負荷量),emmm,我總覺得這個名稱是根據后面的因子分析來的,畢竟因子分析是主成分分析的推廣,隨著叫也不能說人家亂輩分……
note:從上面的描述中,應該很容易看出主成分之間是互不相關的(因為不同特征值對應的特征向量是互不相關的),這是一個很好的性質(原始變量之間是有可能相關的),這表示各主成分的信息互不重疊。 - 確定需要多少個主成分的要求
m個主成分所反映的信息 和 p個原始變量( 就是全部原始變量,和,部分杰出主成分代表)所提供的信息差不多;
m個主成分又能夠對數據所具有的意義進行解釋。(是能解釋的,肯定句,不是否定句。。不要小看這句話,我就被大牛老師問到了,還挺自信地說錯了哈哈哈哈,記住這個教訓 。—from some old people👴👴);
關于因子分析
因子分析是主成分分析的推廣和發展,把多個變量綜合為少數幾個因子,以再現原始變量與因子之間的關系。
不過,具體寫出來因子分析模型長得又很像 回歸分析。。。
Xi=ai1F1+ai2F2+......+aimFm+εiX_i=a_{i1}F_1+a_{i2}F_2+......+a_{im}F_m+\varepsilon_iXi?=ai1?F1?+ai2?F2?+......+aim?Fm?+εi?
注意看上式的腳標,它暗示了很多東西:XiX_iXi?表示第i個變量;F1,...,FmF_1,...,F_mF1?,...,Fm?表示因子,腳標和i是無關的,也就是所有變量都會含他們(也可能不含,主要看系數),所以稱他們為“公共因子”;εi\varepsilon_iεi?,也是因子,注意下腳標是依賴i的(也就是隨變量的不同而不同,或者說一個變量有一個特殊因子),因此稱作“特殊因子”。
- 再說因子分析和回歸分析有什么區別:
回歸分析模型:Y=β0+β1X1+β2X2+......+βmXm+εY = \beta_0+\beta_1X_1+\beta_2X_2+......+\beta_mX_m+\varepsilonY=β0?+β1?X1?+β2?X2?+......+βm?Xm?+ε
因子分析模型中的因子是不可觀測的,但也是隨機的。而回歸分析中的因變量和自變量都是可觀測的,也是隨機的。 - 正交因子模型兩個關鍵性的假設:
特殊因子互不相關,故D(ε)D(\varepsilon)D(ε)應該是一個對角陣;
公共因子互不相關,且D(F)=ImD(F)=I_mD(F)=Im?(單位矩陣);
特殊因子與公共因子互不相關,即COV(ε,F)=Op×mCOV(\varepsilon,F)=O_{p\times m}COV(ε,F)=Op×m?;(假設共有p個變量,m個公共因子)
(雖然我是一只十足的菜鳥,但是我知道很多人用模型都是從來不管前提的,甚至不知道前提假設是什么……)
主成分分析&因子分析
主成分分析一般不用數學模型來描述,它只是通常的變量變換,而因子分析需要構造因子模型(正交或是斜交);
主成分分析中主成分的個數和變量個數相同,它是將一組具有相關性的變量變換為一組獨立的綜合變量(實際中,一般選取部分主成分),而因子分析目的是用盡可能少的公因子,以便構造一個簡單的因子模型;
主成分分析是將主成分表示為原變量的線性組合,而因子分析是將原始變量表示成公共因子和特殊因子的線性組合。
一些亂七芭蕉的觀察和想法……可以忽略不看
樣本資料陣X
一般表示成n*p的矩陣,其中n是樣本容量,p是特征(也就是一次觀測需要看多少指標)。
不好理解的話,可以想想SQL、SPSS中的表格,不同行表示不同case,不同列表示不同指標(學號、姓名、班級等等),又稱“設計矩陣”。
多元正態分布
它有很多個定義,要注意的是定義之間的區別。
比如說:下面這幾種定義之中,聯合密度函數的那個明顯是較強的,因為它需要協方差矩陣是正定的,而其他的只需要非負定即可。
- 在隨機向量服從多維正態分布的前提下,各分量(也可以是分塊的分量)不相關和獨立是等價的。(注意前提)
感謝觀看,歡迎批評指正。【??】
總結
以上是生活随笔為你收集整理的【多元统计分析】课程总结的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: lycos搜索引擎_常用的搜索引擎都有哪
- 下一篇: 高等代数葵花宝典—白皮书