这篇被引用近4k次的论文教你如何正确的理解和使用相关系数!
歡迎關注"R語言和統計"~~
小編前幾天閱讀了一篇論文,名為“A guide to appropriate use of correlation coefficient in medical research” [1],寫的簡單易懂,并且在醫學研究的實踐中非常有參考價值,因此決定分享給大家。
雖然相關(Correlation)容易計算和解釋,但是它的誤用在研究者中也非常的普遍,有些統計學家甚至認為:相關的概念一開始就沒有被提出可能會更好 [2]?!
所以,在最開始,先了解一下到底什么是相關。
相關的定義
在統計學中,相關是一種用于評估兩個連續變量之間的線性關系的方法 [2]。
而相關系數(Correlation coefficient)可用于評估兩個連續變量之間的線性關系的強度,它可以取值 -1 到 +1 之間。
假如相關系數為0,表示兩個連續變量之間不存在線性關系;相關系數為 -1或者?+1,表示兩者存在完美的線性關系。兩者的線性關系越強,數值將會越往 -1 或?+ 1 匯聚。
如果相關系數為負數,稱為負相關,即當一個變量的數值增加時,另外一個變量的數值將會傾向于下降。而相關系數為正數,稱為正相關,即當一個變量的數值增加時,另外一個變量的數值也會傾向于增加。
值得注意的是,如果兩個變量之間的關系是非線性,根據統計學的定義,我們不能稱它們是相關!
舉個例子,假設在線性代數中兩個變量之間的關系是:y = 0.5*x^3,可以在R中將其作圖:?
如上圖:在數學上,x和y當然存在某種聯系(y = 0.5*x^3);但是在統計學中,將x和y稱為相關就不是非常的恰當,因為統計的相關指的是線性關系!
相關系數的類型
主要有兩種相關系數:Pearson相關系數和Spearman相關系數[如果覺得不夠,可以查看往期文章:漲知識!15種相關分析算法,總有一款適合你!]。?
到底該如何選擇相應的方法??
這取決于所要研究的變量,如果兩個變量都是正態分布,選擇Pearson相關;如果其中一個或兩個不是正態分布,選擇Spearman相關。?
Pearson相關系數的公式如下:
Spearman相關系數的公式如下:
注:di 指的是x和y間排序的差別。
相關系數和散點圖
論文作者首先創建了兩組符合正態分布的數據,使用Pearson相關(相關系數分別為0.2, 0.5, 0.8, -0.8),并且制作了對應的散點圖,如下:?
Pearson相關系數為 0.2時:?
圖片來源:[1]的Figure 1
Pearson相關系數為 0.5時:?
圖片來源:[1]的Figure 2
Pearson相關系數為 0.8時:?
圖片來源:[1]的Figure 3
Pearson相關系數為 -0.8時:?
圖片來源:[1]的Figure 4
上述四張圖片可以幫助我們了解不同相關系數所對應散點圖的樣子,有助于在未來僅根據散點圖的模樣提前大致推測它們的相關系數。
從上述四張圖片可知,相關系數越大(絕對值),兩個變量之間的線性關系越明顯。
實例解析
下面用一個實例,用于解釋兩種相關系數在實際應用上的差別。
作者使用了產前門診的數據,共包含了 750 例孕婦,選取了其中兩個變量:血液中血紅蛋白濃度(呈正態分布)和產次(呈偏態分布),散點圖如下:?
圖片來源:[1]的Figure 5
因為產次(parity)為偏態分布,所以在這個例子中,選擇Spearman相關會更加合適,計算所得相關系數為 0.3。?
如果使用Pearson相關,它的相關系數為 0.2。
根據下表,它們的相關系數將會得出截然不同的結論:?
表格來源:[1]的Table 1
如上表所示,如果根據Spearman相關系數為 0.3,可以認為變量間的相關為弱正相關。而如果根據Pearson相關系數為 0.2,它們間的相關是可以忽略的!所以,不同的方法可能會造成完全不同的結論。
好啦,今天的內容就到這里。
如果有幫助,記得分享給需要的人!
參考文獻
[1].?M.M Mukaka, A guide to appropriate use of Correlation coefficient in medical research, Malawi Medical Journal; 24(3): 69-71 September 2012
[2].?Altman DG. Practical Statistics for Medical Research. Chapman & Hall/CRC
▌本文由R語言和統計首發,如需轉載請聯系我們
▌編輯:June
▌我們的夢想是讓R語言和統計變得簡單!
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
總結
以上是生活随笔為你收集整理的这篇被引用近4k次的论文教你如何正确的理解和使用相关系数!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Linux下实用的查看内存和多核CPU状
- 下一篇: 多序列比对软件Jalview的安装及使用