Python笔记-相关性分析(连续变量和分类变量)
生活随笔
收集整理的這篇文章主要介紹了
Python笔记-相关性分析(连续变量和分类变量)
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
概念
相關性分析:兩個連續變量之間的關系檢驗。
Pearson相關系數:衡量兩個變量的線性相關關系;
Spearman相關系數:衡量兩個變量的線性相關關系,部分非線性的也可以衡量;
Kendall相關系數:衡量兩個變量之間非線性相關關系;
0.3以上就是有相關性了,0.3~0.5就是有點強的,0.5以上就是很強的。
下面是分類變量,研究非連續的變量
卡方檢驗:兩個分類變量的分析,是否相關,不能表示強弱。
Python例子
連續變量
代碼如下:
from statsmodels.stats.anova import anova_lm from statsmodels.formula.api import ols import pandas as pd from scipy import statsdf = pd.DataFrame([[20, 6000], [18, 6500], [17, 4500], [16, 3000], [21, 8000], [23, 18000],[30, 25000], [40, 18000], [55, 10000], [35, 19000], [26, 15000], [27, 8000]],columns=["age", "income"] )if __name__ == '__main__':print(df[['age', 'income']].corr(method='pearson'), "\n")print(df[['age', 'income']].corr(method='spearman'), "\n")print(df[['age', 'income']].corr(method='kendall'), "\n")print(stats.chi2_contingency(df));pass運行截圖如下:
?
創作挑戰賽新人創作獎勵來咯,堅持創作打卡瓜分現金大獎總結
以上是生活随笔為你收集整理的Python笔记-相关性分析(连续变量和分类变量)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java io流_浅谈IO流(一)-流的
- 下一篇: dedecms二次开发常用代码