numpy 删除所有为_用Numpy和Pandas工具分析销售数据
在數據分析領域,Python中用到最多的包是numpy,pandas和matplotlib,本文共分為三個部分:1.使用numpy和pandas分析一維數據 2.使用numpy和pandas分析二維數據 3.案例分析。
- Numpy(Numerical Python):是Python語言的一個擴展程序庫,支持大量的維度數組與矩陣運算,此外也針對數組運算提供大量的數學函數庫。
- Pandas:基于Numpy的一種數據分析工具,該工具是為解決數據分析任務而創建的,提供了一套名為數據框的數據結構,可以方便地對表結構數據進行分析。
- matplotlib:是一個圖形繪制庫,專門用于數據分析結構的可視化。
*數據分析工具Numpy和Pandas大綱
一.一維數據分析
Numpy:Array
Pandas:Series
1)Numpy一維數據
Numpy一維數組與列表的區別:
a.統計功能:如:計算平均值的mean()方法,標準差std()方法;
b.向量化計算:可以向量相加和乘以標量;
c.Numpy數組中的每一個元素必須是同一種數據類型,而列表中的元素可以是不同類型。
2)Pandas 一維數組:Series有索引
a.獲取描述統計信息
b. # series.iloc[] :根據位置獲取值。 series.loc[]:根據索引獲取值。
c.向量相加 和刪除缺失值
二.二維數據分析
Numpy:Array
Pandas:DataFarme
1)Numpy
a.定義二維數組,查詢數組
b.切片的使用:切片的使用:[行進行切片,列進行切片],[start:stop:step,start:stop:step]
c.數軸參數:axis=1按行計算,axis=0按列計算
2.Pandas
a.數據框DataFrame: 行columns ; 列index
b.定義一個字典
c.按照每列計算平均值
d.用iloc屬性根據位置查詢值
e.用loc屬性根據索引查詢值
f.查詢某幾列
g.切片功能:指定范圍
h.通過條件篩選符合要求的數據
i.數據集描述統計信息
- 查看某一列數據類型
- 查看有多少行多少列
- 獲取每一列的描述統計
三.案例
Numpy和Pandas 對朝陽醫院藥品銷售數據進行分析,步驟如下:
1.提出問題
和業務部門溝通后,要從銷售數據中分析以下業務指標:
- 月均消費次數;
- 月均消費金額;
- 客單價;
- 消費趨勢
2.理解數據
1)導入數據
2)查看數據類型
3)查看總的行列數
4)表中字段含義如下:
- 購藥時間:藥品銷售日期
- 社保卡號:顧客購買藥品使用的社保卡號碼
- 商品編碼:售出藥品的編號
- 商品名稱:售出藥品的名稱
- 銷售數量:售出藥品的數量
- 應收金額:藥品應售金額
- 實收金額: 藥品實際售出金額(折扣,滿減)
3.清洗數據
原始數據多而雜亂,或缺失,或異常,需要進行數據清洗,得到后續數據分析可用的數據。
1)選擇子集
本案例需要所有數據,不需要選擇子集。下面是展示選擇子集的方法之一:切片訪問
2)列名重命名
統一列名的時間,這里將“購藥時間”改為“銷售時間”,用字典定義舊列名和新列名;用rename函數修改。
3)缺失值處理
a. Python缺失值有3種:None,NA,NaN
- Python內置的None值
- 在pandas中,將缺失值表示為NA,表示不可用not available。
- 對于數值數據,pandas使用浮點值NaN(Not a Number)
b.數據中含有缺失值,對后續計算會造成干擾,可以用空值填充或直接刪除,此處用dropna()將數據框中缺失值刪除。
*how=any表示,給定的任一列中缺失值就刪除
4.數據類型轉換
a.在導入數據時已將所有數據設定為字符串類型,現在用astype()將銷售數量、應收金額和實收金額三列數據類型改為浮點型。
b.自定義函數,將字符串轉換為日期數據類型
5.數據排序
用sort_values()對數據進行排序
刪除缺失值和根據銷售時間排序后,索引名已被打亂,需重新命名索引名
6.異常值處理
如上圖所示,我們發現銷售數量的最小值為-10,因此可以將銷售數量為負值的行刪除。
4.構建模型
我們可根據業務問題來構建模型。
問題1: 月消費次數
月消費次數=總消費次數/月數。注:同一天內同一人的多次消費算為1次。
問題2:月均消費金額
月均消費金額=總消費金額(實收金額)/月份數。
問題3:客單價
客單價=總消費金額/總消費次數。
問題4: 消費趨勢
計算每月銷售總金額
導出數據做出銷售趨勢圖如下:
總結
以上是生活随笔為你收集整理的numpy 删除所有为_用Numpy和Pandas工具分析销售数据的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: C++中的内联函数inline总结
- 下一篇: linux系统查看进程并杀掉,Linux