我用Python分析1585家电商车厘子销售数据,发现这些秘密!
圖片來源:互聯網
大家好,我是菜鳥哥~
眾所周知,中國是智利車厘子最主要的出口對象,占據了其95%的市場份額。
智利駐華大使館商務參贊娜塔曾表示:“2020-2021產季車厘子實現了豐收,預計今年有50萬噸左右的車厘子進入中國市場。”自2020年12月中旬開始,智利海運車厘子陸續到達中國,運輸成本較此前空運方式大幅下滑。這意味著,國內消費者將能以更低的價格買到車厘子。然而,近日國內已有多地進口車厘子核酸檢測結果為陽性,在這種情況下,你還敢大呼“車厘子自由”嗎?
01
數據獲取
本文利用Python采集了淘寶網1585個商家車厘子銷售數據,獲取到車厘子的商品名稱、商品價格、付款人數、店鋪名稱、發貨地址等字段。限于篇幅,爬蟲代碼僅給出主函數:
def?main():browser.get('https://www.taobao.com/')page?=?search_product(key_word)print(page)get_data()page_num?=?70while?int(page)?!=?page_num:print("-"?*?100)print("正在爬取第{}頁數據".format(page_num?+?1))browser.get('https://s.taobao.com/search?q={}&s={}'.format(key_word,?page_num*44))browser.implicitly_wait(10)get_data()page_num?+=?1print("數據抓取完成")if?__name__?==?'__main__':key_word?=?"車厘子"browser?=?webdriver.Chrome("./chromedriver")main()02
數據處理
1.數據讀取并預覽
import?pandas?as?pd import?numpy?as?np df?=?pd.read_csv('/菜J學Python/淘寶/車厘子.csv',header=None,names=['商品名稱','商品價格','付款人數','店鋪名稱','發貨地址'])?#添加字段名稱df.sample(5)2.查看數據信息
df.info()<class?'pandas.core.frame.DataFrame'> Int64Index:?1595?entries,?0?to?1674 Data?columns?(total?5?columns):#???Column??Non-Null?Count??Dtype?? ---??------??--------------??-----??0???商品名稱????1595?non-null???object?1???商品價格????1595?non-null???float642???付款人數????1595?non-null???object?3???店鋪名稱????1595?non-null???object?4???發貨地址????1585?non-null???object? dtypes:?float64(1),?object(4) memory?usage:?74.8+?KB發現數據存在以下幾個問題:
(1)發貨地址有缺失值
(2)付款人數需做提取
(3)發貨地址需做分割
(4)自定義索引并降序
3.數據清洗
#剔除缺失記錄 df.dropna(axis=0,?how='any',?inplace=True)#從發貨地址字段中切分出省份和城市 df["省份"]?=?df["發貨地址"].str.split('?',expand=True)[0]??#expand=True可以把用分割的內容直接分列 df["城市"]?=?df["發貨地址"].str.split('?',expand=True)[1]?#提取城市 df["城市"].fillna(df["省份"],?inplace=True)?#城市字段空值用省份非空值填充#用正則表達式從付款人數中提取數字 import?re df['數字']?=?[re.findall(r'(\d+\.{0,1}\d*)',?i)[0]?for?i?in?df['付款人數']]??#?提取數值 df['數字']?=?df['數字'].astype('float')??#?轉化數值型 df['單位']?=?[''.join(re.findall(r'(萬)',?i))?for?i?in?df['付款人數']]??#?提取單位(萬) df['單位']?=?df['單位'].apply(lambda?x:10000?if?x=='萬'?else?1) df['付款人數']?=?df['數字']?*?df['單位']?#?計算付款人數 df.drop(['發貨地址',?'數字',?'單位'],?axis=1,?inplace=True)?#?刪除多余的列#按商品價格降序并重置索引 df?=?df.sort_values(by="商品價格",?axis=0,?ascending=False)?#降序 df?=?df.reset_index(drop=True)?#重置索引清洗后,數據預覽如下:
03
數據可視化
在以往的數據可視化中,常常以Python可視化庫作圖。而本文將嘗試用Excel進行車厘子數據可視化,因為在繪圖方面,Excel完全不輸Python!
1.國內哪些地方車厘子賣的最火?
利用省份和付款人數字段數據制作地圖,發現上海、浙江和廣東等地車厘子銷售量最大,西藏、青海和內蒙古銷量較小。沿海地區的經濟和人口優勢,成為車厘子主要的消費市場。
車厘子作為“明星水果”,不菲的價格常常讓打工人望而卻步。根據國家統計總局發布的最新數據,上海人均可支配收入居首,超過7萬元,自然更容易實現“車厘子自由”。北京雖然收入較高,但可能受疫情影響較大,車厘子銷量并不多。
2.車厘子到底有多貴?
由上圖可知,40%的車厘子價格在201-500元之間(淘寶掛牌價,非每斤價格),50元以下的車厘子占比不到4%,我表示有被貴到,你呢?如果你不嫌貴,那我幫你找到一家,可能符合你的需求,如下:
3.哪些店鋪賣的最好?
從銷量較高的淘寶店鋪來看,基本都是旗艦店,看來大家對店鋪品牌度關注較多。福瑞達旗艦店月銷量超6萬,名副其實車厘子銷冠,百果園緊隨其后。
4.在售的車厘子具有哪些特點?
為了了解車厘子的特點,對商品名稱字段做了文本分析,以果籃為背景繪制了車厘子詞云圖。主要的特點還是可以看出來的,新鮮、智利、當季、特大等詞都是水果店家推銷的點。至于孕婦提及頻率這么高,有點納悶,于是百度之:
那么問題來了,特殊時期,我們打工人能不能剁手買車厘子?截至目前,根據中國疾控中心公布的消息,目前并沒有發現因為食用進口冷鏈食品而感染新冠肺炎的病例。因此對于普通消費者來說,無須過于恐慌。當然如果你確實非常焦慮的話,疫情期間也可以多選擇國內生產的食品。
結語
1.本數據分析只做學習研究之用途,提供的結論僅供參考,還請獨立思考。
2.公眾號后臺回復「車厘子」可自動獲取本文數據集。
我們開了一個“菜鳥玩轉服務器”星球
最近搞了一個阿里云的白領服務器的活動,很多同學拿了服務器之后不知道怎么玩。好比你買了一臺車,但是不會開只能停在停車場太浪費了。
于是我們開了教大家玩轉云服務器,主要教大家玩Linux,安裝Python,安裝數據庫,用Django+uwsigi+nginx web服務搭建網站,求職簡歷網站搭建,寫腳本部署股票基金機器人,還可以搭建個人網盤!
星球的價格是一年88元,算下來每個月7塊錢,連半杯奶茶的錢都不到,一天才2毛多錢,非常劃算。
年度爆款文案
1).臥槽!Pdf轉Word用Python輕松搞定!
2).學Python真香!我用100行代碼做了個網站,幫人PS旅行圖片,賺個雞腿吃
3).首播過億,火爆全網,我分析了《乘風破浪的姐姐》,發現了這些秘密?
4).80行代碼!用Python做一個哆來A夢分身?
5).你必須掌握的20個python代碼,短小精悍,用處無窮?
6).30個Python奇淫技巧集?
7).我總結的80頁《菜鳥學Python精選干貨.pdf》,都是干貨?
8).再見Python!我要學Go了!2500字深度分析!
9).發現一個舔狗福利!這個Python爬蟲神器太爽了,自動下載妹子圖片
點擊閱讀原文,加入我們的星球!
總結
以上是生活随笔為你收集整理的我用Python分析1585家电商车厘子销售数据,发现这些秘密!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 异形滚动轮播图---jquery实现
- 下一篇: HDFS 关闭安全模式