Airbnb(爱彼迎)用户数据分析——tableau可视化和MySQL分析
本文利用Airbnb用戶的注冊、訂單和日志行為等數(shù)據(jù),從用戶畫像、營銷渠道轉(zhuǎn)化率、訂單漏斗分析三方面進行分析。我們需要考慮以下3個問題:
這三個問題分別定義了傳播的對象、渠道、效率。
有了要解決的問題,我們就可以據(jù)此來定義相應的分析指標。
用戶畫像描述了Airbnb客戶的整體特征,如性別比例、年齡分層、所屬地比例、目的地等幾個方面進行刻畫。同時刻畫了注冊用戶的設備、賬號類別等基本信息,掌握用戶渠道來源。
營銷方面針對不同營銷渠道和營銷內(nèi)容(例如網(wǎng)站的不同推廣計劃)的注冊量和下單轉(zhuǎn)化率進行分析,了解更有效的營銷渠道和效果,從而有針對性的投放廣告,節(jié)約成本。
訂單漏斗分析根據(jù)客戶的行為日志數(shù)據(jù)對用戶的活躍程度、下單率、付款率、復購率進行了可視化,可以觀察整體流程中的薄弱點,從而有針對性的提高某一方面的轉(zhuǎn)化率。
本文參考了文章Airbnb(愛彼迎)產(chǎn)品分析報告里的一些指標觀點。
數(shù)據(jù)描述
數(shù)據(jù)來源于Kaggle競賽,主要包含以下信息:
- train_users.csv - 用戶訓練集
- id: 用戶ID
- date_account_created: 賬戶創(chuàng)建日期
- timestamp_first_active: 第一次瀏覽的時間戳,注意由于用戶注冊前就可以瀏覽,因此可能早于注冊日期和第一次預定日期。
- date_first_booking: 第一次預定日期
- gender:性別
- age :年齡
- signup_method :注冊方式
- signup_flow: 注冊來源網(wǎng)頁
- language: 語言偏好
- affiliate_channel: 營銷渠道
- affiliate_provider: 營銷來源,例如google等
- first_affiliate_tracked: 在注冊之前,用戶與之交互的第一個營銷內(nèi)容
- signup_app :注冊使用的app
- first_device_type :第一次使用時的設備類型
- first_browser :第一次使用時的瀏覽器
- country_destination:旅行目的地
- sessions.csv - 用戶行為日志
- user_id: to 與用戶表的ID 對應
- action :用戶行為
- action_type :用戶行為類型
- action_detail :用戶行為具體細節(jié)
- device_type:設備類型
- countries.csv - 數(shù)據(jù)集中目的地國家的總結(jié)統(tǒng)計和地點
- age_gender_bkts.csv 用戶年齡分組、性別、目的地的總結(jié)統(tǒng)計
數(shù)據(jù)預處理
在開始分析之前,首先對數(shù)據(jù)進行預處理,包括重復值、缺失值、異常值等的處理。
import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import numpy as np sns.set(style="darkgrid") plt.rcParams['font.sans-serif']=['SimHei'] #用來正常顯示中文標簽 plt.rcParams['axes.unicode_minus']=False #用來正常顯示負號data = pd.read_csv('train_users_2.csv') sum(data['id'].value_counts() == 1) #觀察是否有重復id data.info()對比ID數(shù)量為1 的ID個數(shù)和總數(shù)據(jù)量,發(fā)現(xiàn)并沒有重復ID ,說明數(shù)據(jù)中是沒有重復ID 的,ID 可以用作主鍵。
查看16個變量的缺失值情況如下:
可以觀察到缺失值情況如下,并分別對其制定相應的缺失值補充:
| date_first_booking | 第一次預定日期 | 124543 | 沒有發(fā)生預定 | 0 |
| age | 年齡 | 87990 | 注冊頁面不是必填項 | 0 |
| first_affiliate_tracked | 第一次預定推銷內(nèi)容 | 6065 | 未經(jīng)過推銷 | untracked |
處理后不再具有缺失值。
下面對數(shù)據(jù)進行簡單的描述性統(tǒng)計,以便觀察數(shù)據(jù)形態(tài)。
由于變量較多,這里不再一一列舉,用gender這一變量進行舉例說明。
| -unknown- | 95688 |
| FEMALE | 63041 |
| MALE | 54440 |
| OTHER | 282 |
同理可以觀察到連續(xù)變量age的直方圖分布如下:
可以很明顯的看到其中有一些年齡非常大,這是不合實際的,因此需要進行異常值處理,這里將年齡大于100歲的都當做異常值處理成0
此時年齡的分布就比較正常了,雖然有效的年齡數(shù)據(jù)并不多,但我們?nèi)匀豢梢钥醋鍪钦w數(shù)據(jù)的一個隨機抽樣,是可以代表整體年齡水平的。
用戶畫像
首先是用戶特點的刻畫,根據(jù)所有的數(shù)據(jù),可以從目標旅行地點、客戶性別、客戶年齡、客戶來源地幾個方面獲取用戶的特點。
上面的動態(tài)可視化展示了目標旅行地點、客戶性別、客戶年齡三個方面的特性,從以上結(jié)果中我們大致可以發(fā)現(xiàn)幾點:
以受眾最多的美國為例,單獨觀察其性別和年齡分布:
可以看到在62374的美國旅行地用戶中,有22679的女性和19457的男性,男女比例基本持平,男性用戶略低,在年齡分布中大部分用戶的年齡分布在30-60歲,也符合中青年的受眾群體特點。
下面介紹一下客戶來源地。
可以看到用戶幾乎都來自說英語的國家,可以狹義的認為是美國或英國,這是由于當時處于Airbnb發(fā)展初期,業(yè)務范圍主要在西方一些國家。
上面只是簡單介紹了用戶的來源地,但實際上更有用的分析是獲客渠道的分析,即人群接受信息的渠道。
觀察上面的圖表,可以得到以下信息:
根據(jù)以上信息及分析,在Airbnb的廣告投放上更好的渠道方案可能是在Safari等常用瀏覽器的網(wǎng)頁投放,可以增加獲客量。
營銷渠道分析
下面考慮用戶的留存效率問題,最直觀的指標就是客戶的訂單轉(zhuǎn)化率,這里我們把客戶第一次訂單日期為空的用戶認為是沒有進行下單,從而計算轉(zhuǎn)化率。
先來簡單看一下Airbnb2010年-2014年以來用戶注冊數(shù)和訂單數(shù)變化情況。
可以很清晰的看到:
我們可以通過分析不同營銷方式和營銷內(nèi)容的轉(zhuǎn)化率來確定之后的營銷投放重點:
可以看到:
漏斗分析
session數(shù)據(jù)表中關于action_detail這一列中,查看具體有哪些項:
SELECT DISTINCTaction_detail FROMsessions由于有很多,這里不再一一列出,其中比較重要的幾列有:
| reservations | 下單操作 |
| payment_instruments | 支付操作 |
根據(jù)這些變量和數(shù)據(jù),我們可以制作轉(zhuǎn)化率漏斗
step1 產(chǎn)生活動的用戶數(shù)
SELECTCOUNT( DISTINCT user_id ) FROMsessions共有用戶135483。
step2 活躍用戶數(shù)
規(guī)定產(chǎn)生10次以上活動的用戶為活躍用戶。
SELECTCOUNT( DISTINCT user_id ) FROMsessions WHEREuser_id IN ( SELECT user_id FROM sessions GROUP BY user_id HAVING COUNT( user_id ) > 10 )共有活躍用戶111977
step3 下單用戶數(shù)
SELECTCOUNT( DISTINCT user_id ) FROMsessions WHEREaction_detail = 'reservations'共有10366用戶下單。
step4 支付用戶數(shù)
SELECTCOUNT( DISTINCT user_id ) FROMsessions WHEREaction_detail = 'payment_instruments'實際共有9018用戶支付過。
step5 復購用戶數(shù)
SELECTCOUNT( DISTINCT user_id ) FROMsessions WHEREuser_id IN (SELECTuser_id FROMsessions WHEREaction_detail = 'payment_instruments'GROUP BYuser_id HAVINGCOUNT( user_id ) >= 2)有4153用戶多次在Airbnb支付。
將以上數(shù)據(jù)計算比例轉(zhuǎn)化為圖形可以得到:
總結(jié)分析
同樣的,按照文章架構(gòu),從用戶特點、營銷渠道、漏斗分析三個方面稍作總結(jié)。
總結(jié)
以上是生活随笔為你收集整理的Airbnb(爱彼迎)用户数据分析——tableau可视化和MySQL分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据结构---与树相关的知识
- 下一篇: Android Camera 开发你该知