学习笔记Hive(九)—— 实例:航空客户价值分析数据预处理
一、背景與目標
1.1、背景
1.、行業內競爭
民航的競爭除了三大航空公司之間的競爭之外,還將加入新崛起的各類小型航空公司、民營航空公司,甚至國外航空巨頭。航空產品生產過剩,產品同質化特征愈加明顯,于是航空公司從價格、服務間的競爭逐漸轉向對客戶的競爭。
2.、行業外競爭
隨著高鐵、動車等鐵路運輸的興建,航空公司受到巨大沖擊。
客戶營銷戰略倡導者Jay & Adam Curry從國外數百家公司進行了客戶營銷實施的經驗中提煉了如下經驗:
- 公司收入的80%來自頂端的20%的客戶。
- 20%的客戶其利潤率100%。
- 90%以上的收入來自現有客戶。
- 大部分的營銷預算經常被用在非現有客戶上。
- 5%至30%的客戶在客戶金字塔中具有升級潛力。
- 客戶金字塔中客戶升級2%,意味著銷售收入增加10%,利潤增加50%。
這些經驗也許并不完全準確,但是它揭示了新時代客戶分化的趨勢,也說明了對客戶價值分析的迫切性和必要性。
1.2、目標
航空公司數據特征說明
目前航空公司已積累了大量的會員檔案信息和其乘坐航班記錄。
以2014-03-31為結束時間,選取寬度為兩年的時間段作為分析觀測窗口,抽取觀測窗口內有乘機記錄的所有客戶的詳細數據形成歷史數據,44個特征,總共62988條記錄。數據特征及其說明如表所示。
結合目前航空公司的數據情況,可以實現以下目標:
二、數據預處理
航空公司客戶原始數據存在少量的缺失值和異常值,需要清洗后才能用于分析。
通過對數據觀察發現原始數據中存在票價為空值,票價最小值為0,折扣率最小值為0,總飛行公里數大于0的記錄。
- 票價為空值的數據可能是客戶不存在乘機記錄造成。
處理方法:丟棄票價為空的記錄。
- 其他的數據可能是客戶乘坐0折機票或者積分兌換造成。由于原始數據量大,這類數據所占比例較小,對于問題影響不大,因此對其進行丟棄處理。
處理方法:丟棄票價為0,平均折扣率不為0,總飛行公里數大于0的記錄。
2.1、任務步驟
準備:創建air數據庫
1、創建表air_data_base
2、導入數據到air_data_base表
3、丟棄票價為空的記錄,將結果存儲到sum_yr_1_not_null表
4、丟棄平均折扣率為0.0的記錄,將結果存儲到avg_discount_not_0表
5、丟棄票價為0、平均折扣率不為0、總飛行公里數大于0的記錄,將結果存儲到sum_0_seg_avg_not_0表
三、特征構造
原始數據中包含40多個特征,利用這些特征做些什么呢?我們又該從哪些角度出發呢?
3.1、常用客戶價值分類模型
3.1.1、RFM模型介紹
本項目的目標是客戶價值分析,即通過航空公司客戶數據識別不同價值的客戶,識別客戶價值應用最廣泛的模型是RFM模型。
- R(Recency)指的是最近一次消費時間與截止時間的間隔。
- F(Frequency)指顧客在某段時間內所消費的次數。
- M(Monetary)指顧客在某段時間內所消費的金額
3.1.2、RFM模型結果解讀
RFM模型包括三個特征,使用三維坐標系進行展示,如圖所示。
- X軸表示Recency,
- Y軸表示Frequency,
- Z軸表示Monetary,
每個軸一般會分成5級表示程度,1為最小,5為最大。
3.1.3、傳統RFM模型在航空行業的缺陷
在RFM模型中,消費金額表示在一段時間內,客戶購買該企業產品金額的總和,由于航空票價受到運輸距離,艙位等級等多種因素影響,同樣消費金額的不同旅客對航空公司的價值是不同的,因此這個特征并不適合用于航空公司的客戶價值分析。
3.1.4、航空客戶價值分析的LRFMC模型
本項目選擇客戶在一定時間內累積的飛行里程M和客戶在一定時間內乘坐艙位所對應的折扣系數的平均值C兩個特征代替消費金額。此外,航空公司會員入會時間的長短在一定程度上能夠影響客戶價值,所以在模型中增加客戶關系長度L,作為區分客戶的另一特征。
本項目將客戶關系長度L,消費時間間隔R,消費頻率F,飛行里程M和折扣系數的平均值C作為航空公司識別客戶價值的關鍵特征(如表 3 2所示),記為LRFMC模型。
3.2、任務步驟
- 從數據清洗結果中選擇6個屬性: FFP_DATE、LOAD_TIME、FLIGHT_COUNT、AVG_DISCOUNT、SEG_KM_SUM、LAST_TO_END,形成數據集,存儲到flfasl表中
- 構造LRFMC 5個指標,并將結果存儲到lrfmc表中:
1、會員入會時間距離觀測窗口結束的月數=觀測窗口的結束時間-入會時間 [單位:月]
L = LOAD_TIME - FFP_DATE2、客戶最近一次乘坐公司飛機距觀測窗口結束的月數 = 最后一次乘機時間至觀察窗口末端時長[單位:月]
R = LAST_TO_END3、客戶在觀測窗口內乘坐公司飛機的次數 = 觀測窗口的飛行次數 [單位:次]
F = FLIGHT_COUNT4、客戶在觀測時間內在公司累計的飛行里程 = 觀測窗口總飛行公里數 [單位:公里]
M = SEG_KM_SUM5、客戶在觀測時間內乘坐艙位所對應的折扣系數的平均值 = 平均折扣率 [單位:無]
C = AVG_DISCOUNT建表:
構建5個指標:
結果查看:
總結
以上是生活随笔為你收集整理的学习笔记Hive(九)—— 实例:航空客户价值分析数据预处理的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 学习笔记Hive(八)—— 查询优化
- 下一篇: 学习笔记Spark(一)—— Spark