该把优惠券发送给哪些用户?一文读懂Uplift模型
隨著互聯網和人工智能的普及化,個性化營銷已經滲透到了我們生活中的方方面面。而如何找到真正的營銷敏感人群,將更多的預算投入到可以帶來‘增量’的用戶上,以提升整體營銷roi,成為了后時代精細化運營的關鍵。
uplift模型可以很好的解決這一問題,本文將介紹此模型以及其如何應用于智能營銷的底層原理。
01
什么是Uplift模型?
用一個簡單的例子來介紹此模型。假設我們是個電商平臺,一件標價300元的商品,用戶的購買率為6%。現有一批預算可以給用戶發放10元的優惠券以提升用戶購買率。需要給每個用戶都發放優惠券嗎?答案顯然是否定,那么這批優惠券應該發送給平臺的哪些用戶呢?
此時我們腦海中有四類用戶:
Persuadables:不發送優惠券則不買,發送優惠券則購買;
Sure things:不論是否發送優惠券均會購買;
Lost causes:?不論是否發送優惠券均不會購買;
Sleeping Dogs:?不發送優惠券會購買,發送優惠券反而不買;
? ??
左上的Persuadables(說服型)類用戶被發券后產生了正向變化,從不買轉化為購買,干預后購買率得以提升,此部分是我們真正想要進行觸達干預的營銷敏感用戶。
而右上的Sure?things(確認型)類用戶以及左下的Lost?causes(沉睡型)用戶無論是否發券均不會改變其原本的購買行為,對這部分用戶發送優惠券則會造成資源浪費。右下的Sleeping?Dogs(勿擾型)用戶對營銷可能相對反感,干預會產生反效果,這類用戶我們盡量避免打擾。
Uplift模型要解決的問題就是通過建模預測的方法精準的去對這四類用戶進行分群。我們獲取到的訓練訓練數據是不完整的,對于單個用戶來說,不可能同時觀測到在有干預(發券)和沒有干預(不發券)兩種情況下的表現,這也是因果推斷中的反事實的問題。
可以從用戶的角度來對平均因果效應做估計,假如我們有兩組同質用戶,對其中一組用戶發券,另外一組不發券。之后統計這兩群人在購買轉化率上的差值,這個差值就可以被近似認為是可能的平均因果效應。Uplift建模需要服從CIA條件獨立假設,最簡單的解決方式就是ab實驗,因為樣本在特征上分布較為一致,因此隨機實驗是Uplift Model建模過程中非常重要的前置條件。若隨機實驗下各個類別用戶組數量性質較相似,則此Uplift模型即可較精準的預測給用戶發放優惠券的收益。
首先,我們選取部分用戶(小流量實驗,樣本量足夠建模)隨機分為實驗組和對照組,對照組不發優惠券,實驗組發放優惠券,用戶最終是否購買為一個0-1變量;
然后,對整體實驗數據用戶購買行為進行建模;
最后,再用小流量實驗訓練得到模型對我們需要預測的全量用戶進行條件平均處理效應估計,預測其發放優惠券所帶來的增益值;
假設有N個用戶,用戶i在沒有優惠券的購買結果為Yi(0),在有優惠券時購買結果為Yi(1),此時發送優惠券對該用戶的增益就是uplift score (i)=Yi(1)-Yi(0)。當uplift score為正值時,說明干預項對用戶有正向增益作用,也就是上文所提到的Persuadables(說服型)用戶。
02
幾種建模方法
1、Two-Learner
Two-Learner是基于雙模型的差分模型,我們對實驗組(有干預)和對照組(無干預)的購買行為進行分別建模,然后用訓練所得兩個模型分別對全量用戶的購買行為進行預測,此時一個樣本用戶即可得出有干預和無干預情況下兩個購買行為預測值。這兩個預測值的差就是我們想要的uplift score。
這種建模方法較簡單且易于理解,可以直接用回歸、GBDT等模型實現。但也存在一些局限性:
對照組和實驗組分別建模,兩個模型完全隔離,可能兩個模型各有偏差從而導致預測的誤差較大。其次建模的目標是Response而不直接是Uplift,因此模型對Uplift的預測能力較有限;
策略只能是離散值,不能是連續變量,因為有幾種策略就需要建幾個模型。所以當干預條件只有‘是否發優惠券’時,此建模方法可行,但是當涉及到‘多種優惠券面額/文案組合策略’或者‘發多大面額優惠券這種連續變量策略’時,本種建模方法可能并不非常work;
2、Single-Learner
Single-Learner在Two-Learner的基礎上,將對照組數據和實驗組數據放在一起建模,使用一個模型對處理效果進行估計,然后計算該樣本用戶進入實驗組和對照組模型預測的差異作為對實驗影響的估計。與Two-Learner不同的是,本模型將實驗分組(干預項)作為一個單獨特征和其他變量一起放入模型中對用戶購買行為進行建模,干預項可以是多種組合策略或者連續變量。
訓練樣本共用可以使此模型學習更加充分,通過單個模型的學習也可以避免雙模型打分累積誤差較大的問題。此外模型可以支持干預項為多策略及連續變量的建模,實用性較強。但此模型在本質上依然還是對Response建模,對Uplift的預測還是比較間接。
3、Class Transformation Method
Class Transformation Method模型既可以將實驗組與對照組數據打通,同時它又是直接對Uplift score進行預測,計算用戶在實驗組中購買概率與在對照組中購買概率的差值,其核心思想是將實驗組和控制組樣本混合并創建新的變量z滿足:
當用戶在實驗組(發券)且用戶最終購買時,z=1
當用戶在對照組(無干預)且用戶最終未購買時,z=1
當用戶在實驗組(發券)且用戶最終未購買時,z=0
當用戶在對照組(無干預)且用戶最終購買時,z=0
可以證明,P(Z=1│Xi)?和Uplift Score是線性正相關的,且當實驗組與控制組樣本比例為1:1時,Uplift Score =2P(Z=1│Xi)-1,目標從預測Uplift?Score轉化為了預測P(Z=1│Xi)
03
Uplift模型評估
根據Uplift Score的定義,分數越高的用戶即所謂的營銷增益就越大。增益模型由于不能同時觀測同用戶在不同干預項下的真實增量,通常是通過劃分十分位數來觀測實驗組用戶和對照組用戶樣本來進行間接評估。
1、Uplift 十分位柱狀圖
將測試集預測出的用戶按照Uplift Score由高到低平均分為10組,分別是top 10%用戶,top 20%用戶……top 100%用戶。分別對每個十分位內的用戶求實驗組和對照組預測分數的均值,然后相減,計算不同分段中真正的實驗提升收益。然后根據每個分組得出的實驗收益,繪制十分位柱狀圖。這樣,即可較直觀觀察到有多少的用戶大概可以獲得多少的營銷增益。
2、qini曲線(qini curve)
計算每組用戶百分比的qini系數,將這些系數連接起來,得到一條qini曲線。qini系數公式如:
?是按照Uplift Score由高到低排序的用戶數量占實驗組或對照組用戶數量的比例,??= 0.3即表示實驗組或對照組中前30%的用戶。
nt,y=1(?)表示在前百分比多少用戶中,實驗組中預測結果為購買的用戶數量。nc,y=1(?)表示在同樣百分比用戶中,對照組預測結果為購買的用戶數量。
Nt和Nc則分別代表實驗組和對照組總用戶樣本數。
上圖橙色線是隨機曲線,qini曲線與隨機曲線之間的面積作為評價模型的指標,面積越大表示模型結果遠超過隨機選擇的結果。
可以看到當橫軸為top40%時,qini曲線與隨機曲線之間距離最大,對應的縱軸大概是0.037,表示uplift score等于0.037可以覆蓋前40%的用戶數量,這部分用戶也就是我們可以對其進行營銷干預的persuadable用戶。
但如果實驗組和對照組用戶數量不平衡,則會導致指標失真。另一種累積增益曲線可以避免這個問題。
最后,我們總結一下Uplift模型可能的應用場景:
精準定位策略敏感人群:如全文所述,我們希望找出來一些對干預項(例如發券、投放等)比較敏感的用戶,繼而對其進行精準策略/營銷;
測算收益空間:Uplift模型可以幫助我們測算如果對策略做一些人群向優化,業務收益將會提升多少;
End
? ? ? ? ? ? ? ? ? ?
總結
以上是生活随笔為你收集整理的该把优惠券发送给哪些用户?一文读懂Uplift模型的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: android 6gb和8gb区别,6G
- 下一篇: 上海找工作的第一天