线性回归模型中的多重共线性--Multicollinearity
1.Predictor variable
預測變量,即為自變量( independent variable)或者回歸子(regressor), 即它的值不受其他變量的影響。
2.Correlation coefficients
相關系數是指兩個變量之間的關系,而皮爾森系數(pearson’s correlation)就是在線性回歸中常用的一種相關系數,通常就是指 Pearson’s R value。
皮爾森系數用來計算兩個數據間有多強的聯系,例如以下的計算公式,會返回 -1 到 1 之間的一個值,其絕對值越趨近于1,表明相關性越強。一般來講,可用如下的幾個等級進行描述:
- 0.8-1.0 極強相關
- 0.6-0.8 強相關
- 0.4-0.6 中等程度相關
- 0.2-0.4 弱相關
- 0.0-0.2 極弱相關或無相關
其全稱是Pearson Product Moment Correlation (PPMC),即皮爾曼積差相關系數,或皮爾曼積矩相關系數,常用來刻畫數據間的線性關系,而這兩個數據不能有依賴關系,即一個是dependent variable,另一個是 independent variable,這樣是不行的。關于 Product Moment 的解釋,詳見附錄部分。
常用來表示 Pearson correlation 的兩個字母是 ρ 和 γ,它們的表達式分別為:
????
相關系數的計算,都是兩個變量的協方差比上標準差的乘積,但是又分了兩種情況,分別是總體(population)的情況和采樣(sample)的情況。分別對應于上方第一(ρ)和第二(γ)個公式,我們也通常稱之為整體相關系數和樣本相關系數。其展開形式,分別如下:
3.Multicolliearity
而所謂的多重共線性,是指 predictor variable 之間的關系,當預測變量間有跟高的相關度時,會造成信息冗余,影響回歸模型的結果。檢測的方法是計算所有 predictor variable pairs 間的相關系數,如果有為 1 或者 -1 的,說明兩變量間,高度相關,此時應該干掉一個。
4.Other relation coefficients
4.1 復相關系數
用來表示一個因變量和一組自變量之間的相關程度。
4.2 典型相關系數
對每組變量進行主成分分析,得到新的線性關系,然后分析新的各變量間的相關系數。
4.3 spearman correlation coefficients
4.4 kendall correlation coefficients
5.Appendix1: Product moment
6.References
[1]http://blog.sina.com.cn/s/blog_69e75efd0102wmd2.html
[2]https://www.cnblogs.com/gccbuaa/p/6795598.html
[3]https://segmentfault.com/q/1010000000094674
[4]https://en.wikipedia.org/wiki/Pearson_correlation_coefficient
[5]http://www.statisticshowto.com/multicollinearity/
[6]
總結
以上是生活随笔為你收集整理的线性回归模型中的多重共线性--Multicollinearity的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Leetcode 相关资料
- 下一篇: 机器学习中的评价指标--1[F,P,R]