python箱线图读取的几列数据_【分析篇】:python 基本数据统计和绘制箱线图
數據源:catering_sale.xls
Paste_Image.png
A.餐飲銷量數據統計量分析,一個數據得基本統計量
Paste_Image.png
import pandas as pd
catering_sale = 'F:/python 數據挖掘分析實戰/Data/catering_sale.xls' #餐飲數據
data = pd.read_excel(catering_sale, index_col = u'日期') #讀取數據,指定“日期”列為索引列
data = data[(data[u'銷量'] > 400)&(data[u'銷量'] < 5000)] #過濾異常數據
statistics = data.describe() #保存基本統計量,將常見的統計信息保存為數據框
#添加行標簽
statistics.loc['range'] = statistics.loc['max']-statistics.loc['min'] #極差
statistics.loc['var'] = statistics.loc['std']/statistics.loc['mean'] #變異系數
statistics.loc['dis'] = statistics.loc['75%']-statistics.loc['25%'] #四分位數間距
print(statistics)
B.餐飲銷售額數異常檢測代碼--箱線圖
Paste_Image.png
import pandas as pd
catering_sale = 'F:/python 數據挖掘分析實戰/Data/catering_sale.xls' #餐飲數據
data = pd.read_excel(catering_sale, index_col = u'日期') #讀取數據,指定“日期”列為索引列
data.head()
import matplotlib.pyplot as plt #導入圖像庫
plt.rcParams['font.sans-serif'] = ['SimHei'] #用來正常顯示中文標簽
plt.rcParams['axes.unicode_minus'] = False #用來正常顯示負號
plt.figure(figsize=(10,10)) #建立圖像
plt.title("箱線圖")
p = data.boxplot() #畫箱線圖,直接使用DataFrame的方法
x = p['fliers'][0].get_xdata() # 'flies'即為異常值的標簽
y = p['fliers'][0].get_ydata() # 異常值的Y標簽
y.sort() #從小到大排序,該方法直接改變原對象
#用annotate添加注釋
#annotate參數說明:
# xy = (2, 1) :所要標注的位置坐標
# xytext:標注文本所在位置
# y[i]:標注文本,可以隨意替換
#其中有些相近的點,注解會出現重疊,難以看清,需要一些技巧來控制。
#以下參數都是經過調試的,需要具體問題具體調試。
for i in range(len(x)):
if i>0:
plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.05 -0.8/(y[i]-y[i-1]),y[i]))
else:
plt.annotate(y[i], xy = (x[i],y[i]), xytext=(x[i]+0.08,y[i]))
plt.show() #展示箱線圖
參考資料:《Python數據分析與挖掘實戰》
總結
以上是生活随笔為你收集整理的python箱线图读取的几列数据_【分析篇】:python 基本数据统计和绘制箱线图的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pug模板引擎(原jade)
- 下一篇: Android开发中无处不在的设计模式—