淘宝母婴用品数据分析
一.分析背景及目的
本文是一次探索性分析,通過對所有常規指標進行分析,來尋找業務上優化點
二、理解數據
1.數據來源:
數據集-阿里云天池?tianchi.aliyun.com
其中包含2個csv數據,表1購買商品和表2嬰兒信息
2.列名含義:
?
三.數據清洗
?
1.選擇子集
auction_id(購買行為編號) 和 property(商品屬性)在后續分析中不會使用,故將這兩列隱藏。(好習慣是永遠不刪除數據,不需要的數據隱藏起來)
2.列名重命名
將列名翻譯為中文
3.刪除重復值
未發現重復值
4.缺失值處理
經過篩選未發現缺失值,操作參考Excel數據處理(缺失值/重復值/異常值/拆分) - 知乎 (zhihu.com)
5.一致化處理
將日期修改成yyyy/m/d的格式,參考數據分析學習第(3)篇“如何使用Excel分析嬰兒用品銷量情況?” - 知乎 (zhihu.com)
?
將性別列中值為0、1、2的分別修改為女、男、不詳,參考數據分析學習第(3)篇“如何使用Excel分析嬰兒用品銷量情況?” - 知乎 (zhihu.com)
?
6.數據排序
對購買數量降序排序,發現購買數量最大值為10000
對購買日期排序,發現交易記錄的時間范圍是2012年7月2日-2015年2月5日
7.異常值處理
刪除出生日期為1984年的那一列
四、分析思路
1.從行為、商品、用戶三個角度展開描述分析
?
2.對描述分析的結果從以下角度提出假設
?
3.驗證假設得出結論
五、分析過程
商品
1.不同種類商品銷量對比(分析方法:帕累托模型)
?
因為資源總是有限的,不同的渠道和用戶會產生不同的效益,所以我們不能將所有的資源投入到全部渠道里。帕累托分析依據的原理是20/80定律,80%的效益常常來自于20%的投入,而其他80%的投入卻只產生了20%的效益,這說明,同樣的投入在不同的地方會產生不同的效益。28、50014815、50008168三類商品貢獻了總銷量的88%。所以建議把主要的投入放在上述三類商品上。
2.爆款商品
top13的商品銷量都達到1000件以上
?
50018831商品為爆款,其銷量占據top13的34%,為12657件
其他商品銷量比較接近,在1000到3700件之間浮動
銷量主要集中在14年的雙11,而平時銷量不高,說明是節假日爆款商品。需要對14年雙11進行復盤,總結運營經驗,復制爆款商品
行為
1.銷量隨時間變化情況(分析方法:折線圖)
?
2012年、2015年銷量只是其他年份的零頭
假設:數據不完整(數據來源)
交易記錄的時間范圍是2012年7月2日-2015年2月5日
假設成立
2014年銷量約為2013年的2倍
假設:網購人數增加(行業規律),產品好評率提高(產品問題)
?
兩年的銷量趨勢走向基本相同,且在大多數月份2014年的銷量為2013年的2倍
假設成立
由圖,2014年11月份銷量為13年度514%,這是2014年銷量約為2013年的2倍的主要原因
假設:是雙11導致14年11月銷量猛增(行業規律)
?
因為有些店家會把雙11活動延長幾天,所以在13號出現峰值屬于正常現象
假設成立
1、2月份出現銷量低谷
假設:春節快遞停運(行業規律)
?
)
2013年2月10日過春節,2014年1月30日過春節,2015年2月19日過春節,正好與銷量最低時間相吻合。全國大多數地區在節前1周快遞停運
假設成立
2.復購情況
定義:統計周期為2012年7月2日-2015年2月5日,復購率=客戶重復購買行為次數/客戶樣本數量
?
由此可見絕大多數用戶沒有復購行為
假設:數據集中絕大多數嬰兒用品長時間內只適用于購買一次(產品問題)
需要調取產品信息進一步確認
有復購行為用戶中,大多數只復購1次,僅有1人復購3次
這說明用戶的忠誠度很低,很有可能需要用爆款來驅動用戶購買
用戶
性別
1.不同性別的銷量對比
?
女嬰銷量約占六成,男嬰占四成
?
男、女用戶人數約為1:1
2.不同性別的購買偏好
?
?
5008168、28類商品在男、女嬰兒中銷量都比較高
50014815類在女嬰中銷量最高,在男嬰中銷量一般
38、50022520類銷量一般,38類女嬰銷量高些
12265008類在男女嬰兒中銷量都比較低,建議根據實際情況,適當淘汰該類別下的末端商品
50014815類在女嬰中銷量最高,在男嬰中銷量一般
假設:50014815類商品具有性別差異(產品問題)
?
?
在女嬰中銷量高的主要原因是50018831、50012564這兩款商品,它們在男嬰中也是銷量最高的
假設不成立
假設:是女嬰的購買力比男嬰強導致的(用戶問題)
查詢商品50018831的數據時發現,有位用戶單次購買160件,并不是女嬰的購買力更強
假設不成立
(因為這組數據單次購買量太大,會影響對趨勢的判斷,暫時刪除)
38類女嬰銷量較高
查詢38類商品數據時發現,有位用戶單次購買40件
?
年齡
1.不同年齡段商品的銷量對比
?
0歲、1歲和出生前購買占據購買量的70%
2歲、3歲占據20%
其他年齡段占據10%
下面重點考慮0歲、1歲和出生前購買用戶的購買需求
2.不同年齡段購買偏好
?
?
?
50022520類在未出生baby中銷量高,在0歲、1歲嬰兒中銷量低
38類在1歲中銷量高,在未出生baby、0歲嬰兒中銷量低
50022520類在未出生baby中銷量高
假設:存在單次購買量較大的數據(異常數據)
?
并沒有用戶單次購買量較大的情況
假設不成立
50022520類對用戶年齡敏感,給未出生baby備貨的用戶喜歡購買
38類在1歲中銷量高
假設:存在單次購買量較大的數據(異常數據)
?
一名用戶單次購買了40件
假設成立
六、總結建議
1.商品
88%銷量集中在28、50014815、50008168這三類商品上,這三類商品對嬰兒的性別、年齡不敏感
9%的銷量集中在38、50022520兩類商品上,在用戶給未出生baby準備時非常喜歡購買50022520類的商品
3%是122650008類,建議對該類別下的商品進行末位淘汰
?
2.用戶行為規律
絕大多數用戶對大型活動敏感,因為雙11的緣故,14年11月份銷量約為其它月份的6倍
14年雙11活動非常成功,同比13年銷量增長514%,應該進行復盤,總結運營經驗
?
11月13日,母嬰用品的銷量達到峰值,是商家把雙11活動集中在這天的緣故
雙11的銷量占全月的77%
?
3.用戶
主流用戶年齡是0歲、1歲和為未出生的baby準備,除去未出生的baby偏好50022520類的商品外,這3個年齡的
用戶對商品的偏好基本相同,都集中在28、50014815、50008168這三類商品上
男、女嬰兒用戶人數基本持平,女嬰的購買能力比男嬰略高,男、女嬰兒對商品的偏好基本相同,同樣集中在
28、50014815、50008168這三類商品上
復購率僅為0.17%,這說明用戶的忠誠度很低,很有可能絕大多數是貪圖便宜被吸引進來,這樣的用戶質量并不
高,需要進一步調取數據摸清用戶的購買需求,可以從下圖入手
?
下面這批用戶單次購買量超過20
?
前2位用戶的購買時間沒有促銷活動,后3位用戶雖然趕上了5月份的活動,但活動力度不如雙11大,這些人中沒有
1個人在優惠力度最大的雙11期間下單,這就說明ta們的購買需求是急切的
還有一個共同點是,這些人購買的都是女嬰用品
由此做出假設,這些人是否因工作需要所以要批量購買,例如兒童福利院等機構
建議調取以上用戶在淘寶平臺的其他信息,進一步探索ta們的購買需求
總結
以上是生活随笔為你收集整理的淘宝母婴用品数据分析的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: dataframe之按时间筛选数据
- 下一篇: html如何让div一条边斜着,CSS3