聊聊你知道和不知道的相关性系数
總第181篇/張俊紅
01
這一篇我們來聊聊大家平常比較常用的相關系數(shù)。相關系數(shù)是用來度量兩個變量之間相關性大小的一個量化指標。比如你要判斷啤酒和尿布之間是否有相關性,就可以計算這兩個變量的相關系數(shù),通過相關系數(shù)來判斷兩者的相關性大小。相關系數(shù)主要有三種:Pearson相關系數(shù)、Spearman秩相關系數(shù)和Kendall τ相關系數(shù)。皮爾遜(Pearson)相關系數(shù)大家應該都知道,也應該有用到過。但是秩相關(Spearman)系數(shù)和τ相關(Kendall)系數(shù)大家或許不知道。我們這一篇就來聊聊這三個系數(shù)。
02
第一個講的是大家熟悉的皮爾遜相關系數(shù),在講皮爾遜相關系數(shù)前,我們先講一下另外一個概念,協(xié)方差。協(xié)方差是用來表示兩個變量總體的誤差,而方差是用來只表示一個變量的誤差。協(xié)方差的公式如下:
協(xié)方差除了表示兩個變量總體的誤差以外還用來表示兩個變量之間的相關性,為什么協(xié)方差可以表示兩個變量之間的相關性呢?我們需要從協(xié)方差的公式入手。通過上面公式中我們可以看出,協(xié)方差等于兩個變量各自與均值之差的乘積和。
如果變量X與其均值的大小關系與變量Y完全一致,即變量X和Y的值要么同時大于均值要么同時小于均值,那這個時候得到的協(xié)方差全為正數(shù),且協(xié)方差值達到最大;如果變量X與其均值的大小關系與變量Y剛好相反,即變量X大于其均值的時候變量Y剛好小于其均值,這個時候得到的協(xié)方差全為負數(shù),且協(xié)方差值達到最小;如果變量X與其均值的大小關系與Y變量Y值部分一致,兩者的乘積會有正有負,這個時候得到的協(xié)方差值就是介于最大值和最小值之間。X和Y變量的三種情況如下圖所示:
協(xié)方差比較容易受到量綱的影響,什么是量綱呢,就是單位,比如年齡和身高就不是一個單位,當X和Y變量的量綱之間的差別很大時,就會對協(xié)方差結果產生很大影響。下圖中,左右兩邊的X和Y的趨勢基本都一致,但是因為量綱不同(看縱坐標值),所以最后算出來的協(xié)方差會相差很大。
下表為上圖中用到的數(shù)據(jù)集,感興趣的同學可以根據(jù)公式自己計算下:
那對于上面這種不同量綱的影響我們該怎么辦呢?明明趨勢一致,但是算出來的協(xié)方差值會相差很大。什么原因導致的,我們就用什么方法解決。協(xié)方差差別很大的原因主要是因為量綱不同的原因引起的,那我們針對變量進行去量綱處理就行,怎么去量綱呢?就是在協(xié)方差的基礎上再除以各自變量的標準差,這樣就可以消除不同量綱的影響,具體公式如下:
上面這個公式就是相關系數(shù)的公式,也就是我們常用的皮爾遜相關系數(shù),這個系數(shù)的取值在[-1,1]之間,當值大于0說明兩個變量是正相關,且值越接近于1,相關程度越強;當值小于0說明兩個變量是負相關,且值越接近于-1,相關程度越強。
協(xié)方差不僅會受量綱的影響,還會受到異常值的影響,如果有異常值會拉高或拉低平均值,導致最后算出來的結果會有偏差。
03
講完了皮爾遜相關系數(shù),我們再來看看秩相關(Spearman)系數(shù)。
我們前面講過皮爾遜系數(shù)容易受到異常值的的影響,過高和過低的值都會導致最后的結果有偏差,那有沒有一種方法可以避免這種情況呢?答案就是我們這節(jié)要講的秩相關(Spearman)系數(shù),為什么這個可以避免異常值的影響呢?是因為這種方法沒有使用變量的絕對值,而是使用了變量中絕對值出現(xiàn)的順序,順序就是將所有的變量值從小到大進行排序編號就行,是不是很有效。秩相關(Spearman)系數(shù)的公式如下:
04
秩相關(Spearman)系數(shù)是用變量里面各值對應的順序來代替原變量值的,還有另外一種類似的秩相關系數(shù),叫做 Kendall τ秩相關系數(shù)。這種相關系數(shù)的方法也是利用變量值出現(xiàn)的順序,但是與Spearman相關系數(shù)略有不同。具體求取方法為:先將變量X進行升序排列,然后再對變量Y從第一個開始,依次往后進行兩兩比較,最后看隨著X的增大變量Y增大的值有多少,降低的有多少,通過增大的個數(shù)和降低的個數(shù)的比較來判定兩個變量的相關性。
如下圖所示,當我們對變量X進行升序排列以后,我們對變量Y從第一個值開始進行兩兩比較,一共需要比較的組合有:(1,3)、(1,6)、(1,2)、(1,5)、(1,4)、(3,6)、(3,2)、(3,5)、(3,4)、(6,2)、(6,5)、(6,4)、(2,5)、(2,4)、(5,4),然后我們看這里面大于的組合有多少,小于的組合有多少。
如果隨著X的增大變量Y增大的值越多,降低的值越少,說明兩個變量之間越正相關;如果隨著X的增大變量Y增大的值越少,降低的值越多,說明兩個變量之間越負相關;如果隨著X的增大變量Y增大的值與降低的值的數(shù)量比較接近,說明兩個變量之間相關性比較弱。
05
以上就是關于三種不同相關系數(shù)的一個簡單介紹,平常大家應該對第一種皮爾遜相關系數(shù)了解比較多,但是嚴格意義上后兩種要比第一種更加通用,而且適用場景更多一些,尤其是對異常值的影響。
當然了,我們在使用這些方法的過程中肯定是不需要去自己手動計算的,大家只需要明白其中的原理即可。這些相關性系數(shù)的求取在Python中都是有現(xiàn)成的函數(shù)供大家使用。df.corr()大家應該有人使用過,不知道你有沒有看過這個函數(shù)里面的參數(shù),這個函數(shù)里面有一個method參數(shù),該參數(shù)有三個值可選:‘pearson’, spearman’,‘kendall’,分別對應我們上面的三種系數(shù)的求取。
本文就講到這里,大家可以去使用起來啦,我們下周再見。
你還可以看:
聊聊置信度與置信區(qū)間
統(tǒng)計學的假設檢驗
總結
以上是生活随笔為你收集整理的聊聊你知道和不知道的相关性系数的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 11月碎碎念-谈职场礼貌
- 下一篇: 华硕灵耀 X Ultra 笔记本今晚开卖