python关联分析sklearn_Python3利用pandas,sklearn进行关联度分析以及预测的demo
做個簡單的demo記錄下,防止忘記
先看原始數據:
一共有5列:日期,金錢,性別,工作年限,年齡。
我們的目的是要分析各個維度對金錢的影響。
關聯度分析代碼:
# -*- coding: utf-8 -*-
from numpy import array
import pandas as pd
import seaborn as sns
from matplotlib import pyplot as plt
df_base = pd.read_csv('F://tips.csv',)
plt.figure(figsize=(16,12))
#對性別進行onehot
pf = pd.get_dummies(df_base['sex'])
df = pd.concat([df_base, pf], axis=1)
df.drop(['sex'], axis=1, inplace=True)
print(df)
sns.heatmap(df.corr(),annot=True,fmt=".2f")
#刪掉關聯度比較小的列
df.drop(['age'], axis=1, inplace=True)
df.to_csv('result.csv')
plt.show()
運行后我們可以看到heatmap展示出了各個維度之間的關聯系數:
圖中很明顯的可以看到,man對money有正相關系數0.6,woman對money有負相關-0.6,工作年限對money的正相關系數很高,age基本無相關。所以我們把age這一列刪掉,將sex進行了一把onehot,轉換為man和woman兩列(String類型的列只能通過onehot才可以分析)。生成了新的csv。
接下來我們做預測:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
from sklearn import linear_model
df=pd.read_csv('result.csv')
sns.set(style='whitegrid', context='notebook') #style控制默認樣式,context控制著默認的畫幅大小
cols = ['man', 'woman', 'money','workyears']
sns.pairplot(df[cols], size=2.5)
plt.tight_layout()
plt.show()
# 建立模型
model =linear_model.LinearRegression()
# 開始訓練
model.fit(df[['man', 'woman','workyears']], df['money'])
print("coefficients: ", model.coef_)
w1 = model.coef_[0]
w2 = model.coef_[1]
w2 = model.coef_[2]
print("intercept: ", model.intercept_)
b = model.intercept_
x_test = [[1,0,6]]
predict = model.predict(x_test)
print("predict: ", predict)
分布基部符合上一步的猜測
這里我們用了【1,0,6】數據來做預測即:man:1,woman:0,workyears:6
結果:
總結
以上是生活随笔為你收集整理的python关联分析sklearn_Python3利用pandas,sklearn进行关联度分析以及预测的demo的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: socket python json_p
- 下一篇: python gdb coredump_