相关性分析p值_一行代码掌握皮尔逊相关分析,洞察变量关系
變量類型與推薦的假設(shè)檢驗(yàn)方法
可以看到,當(dāng)我們探索兩個(gè)連續(xù)變量之間的關(guān)系時(shí),相關(guān)分析是一個(gè)很好的選擇。那么,相關(guān)分析的原理是什么?如何在Python中實(shí)現(xiàn)相關(guān)分析呢?
一、Pearson相關(guān)系數(shù)
針對(duì)兩個(gè)獨(dú)立的服從正態(tài)分布的連續(xù)變量,我們常用Pearson相關(guān)系數(shù)來(lái)衡量它們之間的相關(guān)性。Pearson相關(guān)系數(shù)的值域?yàn)閇-1, 1],當(dāng)相關(guān)系數(shù)小于0時(shí),表明兩變量之間存在線性負(fù)相關(guān)關(guān)系;當(dāng)相關(guān)系數(shù)大于0時(shí),表明兩變量之間存在線性正相關(guān)關(guān)系;當(dāng)相關(guān)系數(shù)等于0時(shí),表明兩變量之間無(wú)明顯的相關(guān)關(guān)系。
當(dāng)變量不符合正態(tài)分布或者是順序型變量時(shí),我們常用Spearman相關(guān)系數(shù)來(lái)衡量變量間的關(guān)系;當(dāng)我們需要探索變量間的非線性關(guān)系時(shí),可以使用Kendall相關(guān)系數(shù)。不過(guò)這些不在本篇的討論范圍內(nèi),如果感興趣的人多,可以在下方留言。
一般情況下,我們用r來(lái)表示相關(guān)系數(shù),r的取值與相關(guān)程度之間的關(guān)系如下:
皮爾遜相關(guān)系數(shù)的計(jì)算很簡(jiǎn)單。假設(shè)我們有兩組數(shù)據(jù),一組為x,一組為y。那么x與y之間的協(xié)方差作為分子,x的標(biāo)準(zhǔn)差與y的標(biāo)準(zhǔn)差之間的乘積作為分母,得到的就是x與y之間的相關(guān)系數(shù)r,我們用公式表示如下:
計(jì)算出相關(guān)系數(shù)r之后,我們還要檢驗(yàn)它是否具有統(tǒng)計(jì)學(xué)意義,即我們常說(shuō)的是否顯著。這里我們檢驗(yàn)的計(jì)算公式為:
然后我們從t分布中找到對(duì)應(yīng)的P值,與我們?cè)O(shè)定的顯著性水平做一下對(duì)比,比如說(shuō)我們?cè)O(shè)定了顯著性水平為0.05,當(dāng)P值小于0.05時(shí),我們就拒絕零假設(shè),認(rèn)定x與y之間存在顯著的線性相關(guān)。需要注意的是,P值大小不代表兩個(gè)變量間相關(guān)性的強(qiáng)弱,r的大小才是衡量相關(guān)性的統(tǒng)計(jì)量。
當(dāng)然,現(xiàn)在這些繁瑣的過(guò)程我們可以統(tǒng)統(tǒng)交給計(jì)算機(jī)來(lái)處理。
二、Python相關(guān)分析
在pandas中,計(jì)算相關(guān)系數(shù)非常簡(jiǎn)單:
我們還可以用熱力圖來(lái)更直觀地感受一下:
sns.heatmap(iris.corr(), cmap='bwr', center=0)除了sepal_width變量與其他變量負(fù)相關(guān)以外,其他三個(gè)變量間都高度正相關(guān)。
但是我們注意到,這里并沒(méi)有顯著性檢驗(yàn)的信息,那么我們?nèi)绾蔚玫竭@些信息呢?答案就是使用Scipy,Scipy是Python中一個(gè)非常強(qiáng)大的科學(xué)計(jì)算庫(kù),提供了很多關(guān)于統(tǒng)計(jì)、科學(xué)計(jì)算的方法。
scipy.stats.pearsonr方法會(huì)根據(jù)輸入的兩組數(shù)據(jù),計(jì)算Pearson相關(guān)性,返回相關(guān)系數(shù)r以及顯著性檢驗(yàn)的P值,當(dāng)P值低于我們?cè)O(shè)定的顯著性水平時(shí),即可認(rèn)為變量間顯著相關(guān)。
from scipy.stats import pearsonrpearsonr(iris.sepal_length, iris.petal_length)輸出為:
(0.8717537758865832, 1.0386674194497583e-47)好了,關(guān)于Pearson相關(guān)的分享就到這里,有任何問(wèn)題可以在下方留言,我會(huì)及時(shí)回答。另外,除了計(jì)算相關(guān)系數(shù),散點(diǎn)圖、回歸圖等都很適合用來(lái)探索變量間的關(guān)系,感興趣的可以去看我的歷史文章中關(guān)于數(shù)據(jù)可視化的幾個(gè)系列。
總結(jié)
以上是生活随笔為你收集整理的相关性分析p值_一行代码掌握皮尔逊相关分析,洞察变量关系的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 微博polg什么意思_贾磊:广东发微博给
- 下一篇: 压测接口线程数设置_ZAT掌门性能压测巡