Excel数据分析项目——电商数据分析实战
Excel數據分析項目——電商數據分析實戰
- 一、明確目的——以業務為核心目的
- 二、理解數據
- ①商品購買記錄數據
- 購買用戶信息表
- 三、提出問題
- 四、數據清洗
- ①選擇子集
- ②列名重命名
- ③數據類型轉換
- ④數據去重
- ⑤缺失值處理
- ⑥異常值處理
- ⑦關聯數據表
- ⑧數據整理
- 五、描述性統計
- 六、數據可視化
- ①哪些類別(細分)的商品比較特效,總銷量前五的產品是哪些類別?各自占比是多少?——確定哪些商品應該多供應
- ②不同種類商品的銷售趨勢是怎么樣?增長還是下降?——選出暢銷類商品
- ③商品對應的哪個年齡段而言較為暢銷?——若有規律,可以嘗試將該年齡段的其他商品嘗試增加
- ④用戶中的性別分布是怎么樣的?商品購買數量和用戶性別分布是否有關系?
- ⑤哪些客戶更具有購買力,更具有付費意愿?
- 七、總結分析
一、明確目的——以業務為核心目的
案例背景:有一份“淘寶母嬰用品店的銷售數據”需要幫助商家實現盈利最大化
目標:確定產品銷量和哪些因素有關。產品種類、時間、用戶年齡段、客戶性別。以及它們之間的變化趨勢,找出可以改善的點
二、理解數據
①商品購買記錄數據
有表格如下
近3w條數據,7個字段,分別代表如下意義
| user_id | 用戶id | 具有唯一識別性,可作為分析主鍵 分析某一個用戶的行為時,作為識別鍵 |
| auction_id | 購買行為ID | 購買行為的唯一標識編號 可以用來細化用戶的購買行為數據 |
| cat1 | 商品大類 | 用戶購買的商品類別 可通過該數據分析用戶喜歡的商品類型 |
| cat_id | 商品小類 | 用戶購買商品的細分小類 可進一步分析用戶喜歡的類型 |
| property | 商品屬性 | 簡單理解分析數據集,發現商品屬性字段分析意義不大 所以后面將會在表中隱藏 |
| buy_mount | 購買數量 | 用戶購買商品數量的真實情況 進一步可通過多用戶購買數量判斷該商品是否熱銷 |
| day | 購買時間 | 用戶購買行為發生的時間 可推測商品銷售趨勢,也是比較重要的字段 |
P.S:ctrl+tab鍵可以快速切換到另一個表
購買用戶信息表
有表格如下
900+數據,3個字段,分別代表如下意義
| user_id | 用戶id | 用戶賬戶名稱,我們將會通過這個字段來連接兩張表 |
| birthday | 出生日期 | 可了解用戶的年齡段,是比較重要的字段 |
| gender | 性別 | 0 男性,1 女性??煞治鲑徺I商品的男女嬰兒比例 是這次分析中的重要字段 |
三、提出問題
再次明晰分析目標,并根據目標提出問題
目標:確定產品銷量和哪些因素有關。產品種類、時間、用戶年齡段、客戶性別。以及它們之間的變化趨勢,找出可以改善的點,實現盈利最大化
- 哪些類別(細分)的商品比較特效,總銷量前五的產品是哪些類別?各自占比是多少?——確定哪些商品應該多供應
- 不同種類商品的銷售趨勢是怎么樣?增長還是下降?——選出暢銷類商品
- 商品對應的哪個年齡段而言較為暢銷?——若有規律,可以嘗試將該年齡段的其他商品嘗試增加
- 用戶中的性別分布是怎么樣的?商品購買數量和用戶性別分布是否有關系?
- 哪些客戶更具有購買力,更具有付費意愿?
四、數據清洗
一般包括以下8個部分
選擇子集、列名重命名、數據類型轉化、數據去重、缺失值處理、關聯數據表、異常值處理、數據整理八個步驟
在清洗之前,要對原始數據做好備份
①選擇子集
對不需要的字段直接進行刪除,本次分析中property字段與整個分析無關,所以選擇對此字段進行刪除
②列名重命名
將英文字段轉換為中文字段,方便理解分析,改完后的表格如下
③數據類型轉換
1> 購買數量中的單位不統一,無法進行分析計算,需要進行數據類型轉換,可以使用left函數進行字符串提取,會使用到以下幾個函數
- left:字符串從左到右進行切片
- len = 數字個數+字符個數
- lenb = 數字個數+字符個數×2
使用方法如下:
因為都是數字+【件】的字符串都是從左到右排列的,數字個數就是位置數,根據以上公式,那么len*2-lenb即為數字個數=位置數
只保留數字的購買數量公式即為(假設原購買數量單元格為E8)
=LEFT(E8,LEN(E8)*2-LENB(E8)*1 后面 *1可以快速轉化為數字
以上步驟完成數據類型轉換以后即可對原購買數量字段進行刪除,選擇新字段復制-粘貼值即可全部轉化為數值而非公式
2> 購買時間為常規字符串,不是時間型,選中購買時間整個字段 - 數據 - 分列 - 下一步 - 繼續選擇下一步,選中【日期】,默認為YMD,點擊完成 - 最后即可轉化為含斜杠的日期格式,同理出生日期同樣需要修改
④數據去重
把數據中所有字段完全一致的信息刪除
兩個表都需要做后面的操作:單擊任意一個單元格 - 數據 - 刪除重復值
⑤缺失值處理
有兩種處理方法:
填充數據:數據量較少,刪除會影響分析結果
刪除數據:適用于數據量很多,刪除數據不會影響到分析結果時
通過對比發現,商品大類和商品小類兩個字段是有缺失的,但是缺失數據相對于整體數據量占比很少,所以直接刪除即可
單擊數據區域任何一個單元格,快捷鍵Ctrl+g進行定位,定位條件選擇控制,然后在開始界面的【刪除】中選擇【刪除工作行】即可對有空值的行進行刪除
⑥異常值處理
使用篩選功能查看異常值
選擇數據區域任意單元格,Ctrl+shift+L快速調出篩選,發現購買記錄表中的購買數量的最大值是1w,偏離了正常值,所以需要對此行進行刪除
用戶信息表中出生日期有一個1984年,也偏離了正常值,需要對此行進行刪除;性別列也有一個2無意義,進行刪除
⑦關聯數據表
兩個數據表在不同的表格文件中,需要對數據進行合并,使用vlookup函數
舉例查找出生日期,函數為(有些匹配不到),然后用篩選將null值刪除
=VLOOKUP(A3,[2購買用戶信息表.xlsx]購買用戶信息表! $ A: $ B,2,0)
用同樣的方法求出性別,隱藏null值
⑧數據整理
使用到year函數計算用戶年齡,用購買時間-出生日期的年份即可得到用戶年齡,然后隱藏負值
使用IF函數來將性別變為【男女】=IF(H3=0,“男”,“女”)
五、描述性統計
需要用到Excel描述統計分析庫,需要進行設置添加
文件 - 選項 - 加載項 - 轉到 - 勾選【分析工具庫】
轉到數據菜單點擊【數據分析】,雙擊【描述統計】
【輸入區域】即為需要分析的區域,勾選【標志位于第一行】【匯總統計】【平均數置信度(95%)】,可以生成下面的圖表
中位數和眾數都是1,代表大多數客戶購買力較低
六、數據可視化
解決剛開始提出的5個問題
- 哪些類別(細分)的商品比較特效,總銷量前五的產品是哪些類別?各自占比是多少?——確定哪些商品應該多供應
- 不同種類商品的銷售趨勢是怎么樣?增長還是下降?——選出暢銷類商品
- 商品對應的哪個年齡段而言較為暢銷?——若有規律,可以嘗試將該年齡段的其他商品嘗試增加
- 用戶中的性別分布是怎么樣的?商品購買數量和用戶性別分布是否有關系?
- 哪些客戶更具有購買力,更具有付費意愿?
首先創建數據透視表,區域為所有數據,在新的sheet中創建,然后就可以分析上面的5個問題了
①哪些類別(細分)的商品比較特效,總銷量前五的產品是哪些類別?各自占比是多少?——確定哪些商品應該多供應
使用數據透視表,【行】設置為商品大類,【值】設置為購買數量,得到下面的數據透視表
選中購買數量列,按降序排列,為了求比例,需要在【值】處再拖入一個購買數量,然后點擊此“行”任意一個單元格,右鍵選擇值顯示方式 - 總計百分比,就可以顯示每個大類的百分比,最終效果圖如下
p.s:先選中行再用Ctrl+shift+L可以快速選中下面的所有行
②不同種類商品的銷售趨勢是怎么樣?增長還是下降?——選出暢銷類商品
【購買時間】拖到行,【商品大類】拖到列,【購買數量】拖到值
此時因為只有2013和2014有比較完整的數據,所以對數據進行篩選,只保留2013和2014年的數據,展開可以看到各個季度的具體數據
對數據進行趨勢圖繪制,選擇需要繪制的數據集,點擊【插入】選擇折線圖,得到圖表如下,即可直觀看出各類商品的銷量趨勢
③商品對應的哪個年齡段而言較為暢銷?——若有規律,可以嘗試將該年齡段的其他商品嘗試增加
將【年齡】字段拖到行,【購買數量】字段拖到值,可以得到不同年齡的購買數量情況透視表,再拖一個【購買數量】到值并選擇顯示百分比,可以更直觀地看出各年齡購買量占總銷量的百分比
此時采用柱狀圖進行可視化展示,如下,可以看出0~3歲的銷量是最好的
④用戶中的性別分布是怎么樣的?商品購買數量和用戶性別分布是否有關系?
將【性別】分別拖到行和值里,可以計算出兩個性別的人數,插入餅圖可以看出兩個性別占比,得到結果如下,可以發現女性用戶的數量和購買量都是要高于男性的
⑤哪些客戶更具有購買力,更具有付費意愿?
新建透視表,用戶ID設置為【行】,購買數量設置為【列】
點擊行標簽篩選 - 值篩選,選擇顯示前五項,即可得到購買數量前五的用戶,選中數據進行排序,選擇降序排列,即可獲得購買力為前五的用戶ID,對于購買力最強的用戶可以進一步分析其用戶行為,并采取針對性的維護措施,數據透視表如下
七、總結分析
通過明確問題、理解數據、數據清洗、分析、數據可視化等步驟,可以得出以下三個結論
總結
以上是生活随笔為你收集整理的Excel数据分析项目——电商数据分析实战的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: SQLServer常用的字符串函数梳理
- 下一篇: SQLServer常见的数学函数梳理