當前位置：首頁 > 编程语言 > python >内容正文

python

python关联分析sklearn_Python3利用pandas，sklearn进行关联度分析以及预测的demo

發布時間：2023/12/4 python 26 豆豆

生活随笔收集整理的這篇文章主要介紹了 python关联分析sklearn_Python3利用pandas，sklearn进行关联度分析以及预测的demo 小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

做個簡單的demo記錄下，防止忘記

先看原始數據：

一共有5列：日期，金錢，性別，工作年限,年齡。

我們的目的是要分析各個維度對金錢的影響。

關聯度分析代碼：

# -*- coding: utf-8 -*-

from numpy import array

import pandas as pd

import seaborn as sns

from matplotlib import pyplot as plt

df_base = pd.read_csv('F://tips.csv',)

plt.figure(figsize=(16,12))

#對性別進行onehot

pf = pd.get_dummies(df_base['sex'])

df = pd.concat([df_base, pf], axis=1)

df.drop(['sex'], axis=1, inplace=True)

print(df)

sns.heatmap(df.corr(),annot=True,fmt=".2f")

#刪掉關聯度比較小的列

df.drop(['age'], axis=1, inplace=True)

df.to_csv('result.csv')

plt.show()

運行后我們可以看到heatmap展示出了各個維度之間的關聯系數：

圖中很明顯的可以看到，man對money有正相關系數0.6，woman對money有負相關-0.6，工作年限對money的正相關系數很高，age基本無相關。所以我們把age這一列刪掉，將sex進行了一把onehot，轉換為man和woman兩列(String類型的列只能通過onehot才可以分析)。生成了新的csv。

接下來我們做預測：

import matplotlib.pyplot as plt

import seaborn as sns

import pandas as pd

from sklearn import linear_model

df=pd.read_csv('result.csv')

sns.set(style='whitegrid', context='notebook') #style控制默認樣式,context控制著默認的畫幅大小

cols = ['man', 'woman', 'money','workyears']

sns.pairplot(df[cols], size=2.5)

plt.tight_layout()

plt.show()

# 建立模型

model =linear_model.LinearRegression()

# 開始訓練

model.fit(df[['man', 'woman','workyears']], df['money'])

print("coefficients: ", model.coef_)

w1 = model.coef_[0]

w2 = model.coef_[1]

w2 = model.coef_[2]

print("intercept: ", model.intercept_)

b = model.intercept_

x_test = [[1,0,6]]

predict = model.predict(x_test)

print("predict: ", predict)

分布基部符合上一步的猜測

這里我們用了【1，0，6】數據來做預測即：man:1,woman:0,workyears:6

結果：

總結

以上是生活随笔為你收集整理的python关联分析sklearn_Python3利用pandas，sklearn进行关联度分析以及预测的demo的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

上一篇： socket python json_p
下一篇： python gdb coredump_