变量关系的描述方法
前言:當描述變量間的相關關系時,大多數人都知道用“相關系數”來進行表示,進而直接聯想到了以下表達式:ρ=∑(yi?yˉ)(xi?xˉ)∑(yi?yˉ)2∑(xi?xˉ)2\rho = \frac{\sum(y_i-\bar{y})(x_i-\bar{x})}{\sqrt{\sum(y_i-\bar{y})^2\sum{(x_i-\bar{x})^2}}}ρ=∑(yi??yˉ?)2∑(xi??xˉ)2?∑(yi??yˉ?)(xi??xˉ)?但實際上該相關系數(更準確地說是PearsonPearsonPearson相關系數)僅僅是描述兩數值型變量之間相關關系的一種方式,不能適用于全部場景。
目錄
- 一、名義變量相關系數
- 二、順序變量相關系數
- 2.1 兩個順序變量相關系數度量
- 2.1.1 kendall′sτkendall's \ \taukendall′s?τ相關系數(τb\tau_bτb?和τc\tau_cτc?相關系數)
- 2.1.2 Goodman?Kruskal′sγGoodman-Kruskal's \ \gammaGoodman?Kruskal′s?γ相關系數
- 2.2 多個順序變量相關系數度量
- 2.3 一致性的度量
- 2.3.1 兩個順序變量一致性度量:KappaKappaKappa一致性系數
- 2.3.2 多個順序變量一致性度量:Kendall′sWKendall's \ WKendall′s?W系數
- 三、數值型變量相關系數
- 3.1 兩個數值型變量相關系數
- 3.2 多個數值型變量相關系數
- 3.3 一個數值型變量與多個數值型變量間的相關系數
- 3.4 多個數值型變量與多個數值型變量間的相關系數
一、名義變量相關系數
由于分類型變量的取值通常是不能歸于某一類別的非數字型數據,因此需要對其進行整理,一般使用列聯表的方式展示交叉分類的頻數統計結果:
| X | n11n_{11}n11? | n12n_{12}n12? | n13n_{13}n13? | ?\cdots? |
| Y | n21n_{21}n21? | n22n_{22}n22? | n23n_{23}n23? | ?\cdots? |
可以用以下統計量描述行變量和列變量之間的相關性:
當列聯表的維數大于2×22\times 22×2時, ?\phi?相關系數的上限會超過1,此時用于描述相關關系就不合適了。
二、順序變量相關系數
順序變量和名義變量同屬于分類變量,順序變量的取值是只能歸于某一有序類別的非數字型數據,因此順序變量的整理方式通常也是列聯表,只是對列聯表進行分析時需要考慮各類別之間的順序關系,不能只考慮列聯表的結構關系。常見的分析有RidditRidditRiddit分析等。
2.1 兩個順序變量相關系數度量
2.1.1 kendall′sτkendall's \ \taukendall′s?τ相關系數(τb\tau_bτb?和τc\tau_cτc?相關系數)
先展示兩個順序(數值)變量觀測數據形式:
| 樣本1 | aaa | xxx |
| 樣本2 | bbb | yyy |
| ?\cdots? |
τ=Nc?Ndn(n?1)/2\tau = \frac{N_c - N_d}{n(n-1)/2}τ=n(n?1)/2Nc??Nd??其中NcN_cNc?表示協同數對的數目,NdN_dNd?表示不協同數對的數目。
當(xj?xi)(yj?yi)>0(x_j-x_i)(y_j-y_i) >0(xj??xi?)(yj??yi?)>0時,就稱兩個數對(xi,yi)(x_i,y_i)(xi?,yi?)和(xj,yj)(x_j,y_j)(xj?,yj?)之間是協同的,即變化方向是一致的。反之,當(xj?xi)(yj?yi)<0(x_j-x_i)(y_j-y_i) <0(xj??xi?)(yj??yi?)<0時,就稱數對(xi,yi)(x_i,y_i)(xi?,yi?)和(xj,yj)(x_j,y_j)(xj?,yj?)之間是不協同的,即變化方向是相反的。
τ\tauτ相關系數實際上是對概率P{(xj?xi)(yj?yi)>0}?P{(xj?xi)(yj?yi)<0}P\{(x_j-x_i)(y_j-y_i)>0\}-P\{(x_j-x_i)(y_j-y_i)<0\}P{(xj??xi?)(yj??yi?)>0}?P{(xj??xi?)(yj??yi?)<0}的估計。
此外對于數值型變量還可以使用SpearmanSpearmanSpearman秩相關系數、PearsonPearsonPearson相關系數進行度量,在后面會再提。
2.1.2 Goodman?Kruskal′sγGoodman-Kruskal's \ \gammaGoodman?Kruskal′s?γ相關系數
在2.1.1節中已經提到,對于順序型變量,若利用SpearmanSpearmanSpearman秩相關系數評價相關性,對樣本觀測值評秩后會出現較多打結現象,而如果利用kendall′sτkendall's \ \taukendall′s?τ相關系數其實有時也會出現這種情況,此時還可以使用Goodman?Kruskal′sγGoodman-Kruskal's\ \gammaGoodman?Kruskal′s?γ相關系數。
用列聯表對順序變量觀測數據進行整理:
| Y1Y_1Y1? | n11n_{11}n11? | n12n_{12}n12? | n13n_{13}n13? | ?\cdots? |
| Y2Y_2Y2? | n21n_{21}n21? | n22n_{22}n22? | n23n_{23}n23? | ?\cdots? |
Goodman?Kruskal′sγGoodman-Kruskal's \ \gammaGoodman?Kruskal′s?γ相關系數的公式如下:G=P?QP+Q=nc?ndnc+ndG=\frac{P-Q}{P+Q} = \frac{n_c-n_d}{n_c + n_d}G=P+QP?Q?=nc?+nd?nc??nd??
其中nc,ndn_c,n_dnc?,nd?為協同數對和不協同數對的數目,nc=∑i,jnij∑i′>i∑j′>jni′j′n_c = \sum_{i,j} n_{ij} \sum_{i'>i} \sum_{j'>j} n_{i'j'}nc?=i,j∑?nij?i′>i∑?j′>j∑?ni′j′? nd=∑i,jnij∑i′>i∑j′<jni′j′n_d = \sum_{i,j} n_{ij} \sum_{i'>i}\sum_{j'<j} n_{i'j'}nd?=i,j∑?nij?i′>i∑?j′<j∑?ni′j′?
此外還可以給出GGG相關系數的漸近方差計算公式,在這里不給出了。
2.2 多個順序變量相關系數度量
展示多個順序變量:
| 樣本1 | aaa | xxx | uuu |
| 樣本2 | bbb | yyy | vvv |
| ?\cdots? |
探究的問題一般是kkk個順序變量(或數值變量)之間是否存在相關性
一般通過計算Kendall′sWKendall's\ WKendall′s?W相關系數進行檢驗,步驟如下:
說明:
2.3 一致性的度量
一致性的概念和相關性有所不同,一致性通常是指在兩種不同的評價標準下,指標變量的結果是否具有相似的水平或趨勢,相關性則一般指兩個指標之間的相關程度。
2.3.1 兩個順序變量一致性度量:KappaKappaKappa一致性系數
用兩種評估方案(A和B)對樣本的同一指標進行評價:
| 樣本1 | aaa | aaa |
| 樣本2 | bbb | ccc |
| ?\cdots? |
將結果整理成列聯表形式:
| X1X_1X1? | n11n_{11}n11? | n12n_{12}n12? | n13n_{13}n13? | ?\cdots? |
| X2X_2X2? | n21n_{21}n21? | n22n_{22}n22? | n23n_{23}n23? | ?\cdots? |
| ?\cdots? | ||||
| XcX_cXc? | nc1n_{c1}nc1? | nc2n_{c2}nc2? | nc3n_{c3}nc3? | ?\cdots? |
用對角線元素niin_{ii}nii?的相對頻數反映兩種方案間的一致性,得到KappaKappaKappa一致性系數:K=P0?Pe1?PeK=\frac{P_0-P_e}{1-P_e}K=1?Pe?P0??Pe??其中P0=∑i=1rpiiP_0 = \sum_{i=1}^r p_{ii}P0?=∑i=1r?pii?表示列聯表的實際一致性比例,Pe=∑ipi?p?iP_e = \sum_{i} p_{i\cdot}p_{\cdot i}Pe?=∑i?pi??p?i?表示獨立性假定下的一致性。KKK的評價標準如下:
此外還可以給出KKK漸近方差的表達式,在這里不給出。
2.3.2 多個順序變量一致性度量:Kendall′sWKendall's \ WKendall′s?W系數
在2.2節中已經提到,Kendall′sWKendall's \ WKendall′s?W系數也可以用于評價多個評估方案間的一致性,在這里不再重復敘述。
三、數值型變量相關系數
3.1 兩個數值型變量相關系數
到這一節就是非常常見的三種相關系數度量方法了:
- PearsonPearsonPearson相關系數:ρ=∑(yi?yˉ)(xi?xˉ)∑(yi?yˉ)2∑(xi?xˉ)2\rho = \frac{\sum(y_i-\bar{y})(x_i-\bar{x})}{\sqrt{\sum(y_i-\bar{y})^2\sum{(x_i-\bar{x})^2}}}ρ=∑(yi??yˉ?)2∑(xi??xˉ)2?∑(yi??yˉ?)(xi??xˉ)?PearsonPearsonPearson相關系數是應用最為廣泛的度量方法,但注意它的使用需要滿足一定的條件:(1)兩變量X,YX,YX,Y滿足聯合正態分布;(2)兩變量之間是線性相關關系;(3)樣本中不存在異常值(否則會扭曲結果)。用一張圖就可以清楚說明不滿足這些假定時會產生什么樣的結果:
- SpearmanSpearmanSpearman秩相關系數:rs=∑(Ri?Rˉ)(Qi?Qˉ)∑(Ri?Rˉ)2∑(Qi?Qˉ)2=1?6∑di2n(n?1)(n+1)r_s = \frac{\sum(R_i - \bar{R})(Q_i-\bar{Q})}{\sqrt{\sum(R_i-\bar{R})^2\sum(Q_i-\bar{Q})^2}}=1-6\frac{\sum d_i^2}{n(n-1)(n+1)}rs?=∑(Ri??Rˉ)2∑(Qi??Qˉ?)2?∑(Ri??Rˉ)(Qi??Qˉ?)?=1?6n(n?1)(n+1)∑di2??主要反映秩之間的一致性,可以度量變量間的廣義上的相關性。
- Kendall′sτKendall's \ \tauKendall′s?τ相關系數:從數據對變化協同的角度出發計算相關系數。
3.2 多個數值型變量相關系數
仍然可以使用Kendall′sWKendall's\ WKendall′s?W系數進行描述。
3.3 一個數值型變量與多個數值型變量間的相關系數
實際上就是指復相關系數,注意這里其實已經區分自變量和因變量的關系了,而之前的相關關系中變量都是平等的。
變量YYY與X=(X1,X2,?,Xp)′X=(X_1,X_2,\cdots,X_p)'X=(X1?,X2?,?,Xp?)′復相關系數R=ΣyxΣXX?1ΣXyσyyR=\sqrt{\frac{\Sigma_{yx}\Sigma_{XX}^{-1}\Sigma_{Xy}}{\sigma_{yy}} }R=σyy?Σyx?ΣXX?1?ΣXy???
然而注意這里的相關系數仍然是線性相關系數
3.4 多個數值型變量與多個數值型變量間的相關系數
此時一般需要用到典型相關分析的方法。
典型相關分析是多元統計中的一種降維方法,它利用主成分分析的思想,分別提取X=(X1,X2,?,Xm)′X=(X_1,X_2,\cdots,X_m)'X=(X1?,X2?,?,Xm?)′與Y=(Y1,Y2,?,Yn)′Y=(Y_1,Y_2,\cdots,Y_n)'Y=(Y1?,Y2?,?,Yn?)′之間的主成分,使得不同組主成分之間的相關性達到最大,而相同組的主成分之間互不相關,即包含的信息不重疊。
典型相關分析的主要步驟如下:
以上便是個人總結的變量間相關關系的度量方法,由于能力有限,可能有所遺漏或存在錯誤,歡迎批評和指正。
總結
- 上一篇: 走自己的路,让国际米兰连胜去吧!(写给米
- 下一篇: 前端优化之雅虎军规