活动、节假日、促销等营销方式的因果效应评估——方法模型篇(二)
筆者近兩年都在做智能營銷方面的探索,不過最近想稍微切換自己的研究賽道,所以最近想把智能營銷方面細枝末節的一些思考發出來。
關于活動、節假日、促銷等營銷方式的因果效應評估前篇是《活動、節假日、促銷等營銷方式的因果效應評估——特征工程篇(一)》是把給入模型時特征加工的方式列舉一下,本篇是想簡單總結如何評價一個活動營銷方式的好壞;當然方法本身不勝枚舉,只能在有限視野里面進行歸納。
1 回歸的方法
活動評價,與筆者之前思考的一個點也是有些共同的《數據科學之 如何找到指標的最 佳分裂點的幾個想法》最佳分裂點其實就是在找不同特征下的重要性,我們可以來看一下。
如果將活動變成了機器學習模型中的一個特征,如《活動、節假日、促銷等營銷方式的因果效應評估——特征工程篇(一)》所述,有很多種方式,那么,活動變成模型的特征之后,活動好壞與優劣,就是評價這個特征的重要性了。
1.1 離散/回歸 系數
這個比較常見,直接看線性回歸的系數就可以判斷,來稍稍回憶一下 《重復事件(表現形態:活躍、留存、復購)建模(生存分析)的案例學習筆記》中的一個案例,文章的【1.3.2 PWP-GT 重復事件建模在看點業務中的實際應用】,可以看到:
這里YY一下,比如打開時長a,均等切分為,[a0,a1,…,a6],可能實際含義是[0h,1h,…,5h],然后對活躍度=Y做回歸,
這里的回歸系數的顯著性,就是指標合理的表現,
來YY解讀一下這個圖,[a0,a1],[a1,a2]是不顯著的,其他都是顯著的;代表,打開時長在2h以上的是明顯的,這是一個非常重要的閾值。
而且,還可以量化出來說,如果打開時長在[a4,a5]([4h,5h])那么活躍度會比[a0,a1]高出40%
如果要在顯著的時間里面再畫一個閾值,可以觀察系數的增長幅度,比如:
那a4,4H就是一個非常好的新閾值點;所以離散回歸是非常好的可以找到閾值、量化指標水平的方式。
1.2 樹模型- 特征重要性
一般的樹模型會根據每個特征進行分裂,那么每個特征的重要性也可以獲得。
1.3 shap值
筆者一直覺得SHAP值的商業分析價值一直被低估,筆者也有一直在跟進學習中:
機器學習模型可解釋性進行到底 —— SHAP值理論(一)
因果推斷雜記——因果推斷與線性回歸、SHAP值理論的關系(十九)
同時其分析的特征重要性的角度與樹模型不同,
所以兩者之間會有不同,就需要根據具體情況具體分析了。
1.4 時序模型 —— Facebook Prophet
這款facebook開源的時序框架其中有一個節假日效應的模擬,5年前筆者在一些項目中就想著使用這個模塊去做一些活動、廣告的評估,該方式充分考慮了時序數據的特點,是一個非常好的方法。
R+python︱Facebook大規模時序預測『真』神器——Prophet(遍地代碼圖)
可以考察節中、節后效應。來看看paper中如何解釋節日效應的(論文地址):
也就是說,節日效應能量函數h(t)由兩部分組成,Z(t)是一個示性函數的集合(indicator function),而參數K服從(0,v)正態分布。可以說,將節日看成是一個正態分布,把活動期間當做波峰,lower_window 以及upper_window 的窗口作為擴散。
當然這里筆者也稍微展開,以網易云的一篇文章為引子:
《云音樂用戶增長預測之Prophet模型》:
通過將長期趨勢、季節因素、節假日分離開,Prophet可以幫助我們回答以下幾個其他模型難以回答的業務問題:
- 一些活動經常與節假日重合,例如元旦活動會帶來活躍但用戶在元旦本身就會更活躍,如何剝離元旦本身的影響來評估元旦活動帶來的額外價值?
- 一到9月,受開學影響,活躍會下降,但定量來說,開學的影響到底有多大?
- 在解釋DAU波動時,今年和去年同期都上升或下降但幅度不同,為什么?
通過模型來評估活動影響有兩種方式:
- 1)將每重復的活動視為一個節假日,例如云音樂的年度歌單發布視為一個節假日;這種方式的優點在于比較容易處理,但缺點也顯而易見,就是當活動與節假日重合的時候沒有辦法分離出節假日與活動影響,而且沒有辦法觀察活動的長尾影響。
- 2)將實際DAU減去長期趨勢,季節因素,節假日因素,最后得出活動帶來的增量,即
2 實驗科學的研究方法
筆者去年略微學習了因果推斷,對于營銷方式的評估上來說,因果推斷的一些方式是非常適合,而且科學的,之前有記錄為:
因果推斷筆記——入門學習因果推斷在智能營銷、補貼的通用框架(十一)
騰訊看點分享的【2-1觀測數據因果推斷應用-啟動重置體驗分析】文章中,比較明確的將實驗、觀測數據進行拆分,并在各自數據狀態下,適用不同的方法:
第二個版本目前解決各個分析場景的方法論框架:
一些無法進行隨機實驗的場景下,會需要合成控制的方式
大部分運營和產品在評估效果時,最常用的方法就是effect = 上線后效果-上線前效果。這種方法最大的問題在于其關鍵假設,即上線的功能或者活動是唯一影響效果的變量。但是想想就知道這個假設是有多么不合理。
升級版的評估方案,可能會找到一個城市或者大盤來和上線的城市做對比,這種想法非常類似DID,但是這個里面也隱含著一個關鍵假設,即可以找到長期變化趨勢高度同步的城市,這點對于有較強地域性的商業來說就非常困難。
還有一篇因果推斷實戰:淘寶3D化價值分析小結:
在datafun數據科學峰會中《5-1 數據+金融營銷的思考與應用》提到的結合用戶增長+因果推斷:
節選datafun數據科學峰會:《9-3 電商搜索場景下的數據科學實踐》
京東內部的因果推斷基礎框架整理:
2.1 A/B 實驗
A/B 實驗是一個非常好的比較一些策略有效性的手段,是所有商業運營必備的實驗技巧。
對于一些優惠券的價值評估舉例,是滿減券好,還是無門檻券好,都可以根據進行測試,當然往往也會伴隨著不同的用戶人群,不同的測試策略。
這里不做過多的描述,可參考:A/B Test︱一輪完美的A/B Test 需要具備哪些要素
2.2 時序 + 因果推斷 - google的CausalImpact
跟著開源項目學因果推斷——CausalImpact 貝葉斯結構時間序列模型(二十一)
比較適合跟
在不能做AB測試的情況下,產品上線后做效果評估一般會直接選擇上線前后的指標做對比,但是不同時期的指標本身受到的影響不一樣,比如節假日、季節性影響,使得選擇上線前后時間段的指標比較主觀。
為了準確的量化產品改版的效果,谷歌推出了開源項目causalimpact工具包,該方法基于合成控制法的原理,利用多個對照組數據來構建貝葉斯結構時間序列模型,并調整對照組和實驗組之間的大小差異后構建綜合時間序列基線,最終預測反事實結果。
即如果沒有上線這次的產品改版,那么產品指標該是如何走向。那么這次的產品改版對指標的影響大小即是真實值(產品改版后的指標值)和預測值(預測沒有改版該時期的指標值)的差距。
第一張圖中y是處置組,Predicted是狀態空間模型的預測值,有顏色的部分是預測值的置信區間。
第二個圖表表示第一個圖表的y-Predicted。
第三個圖表表示處置期間y-Predicted的累計和。
2.3 DID與合成控制
直接參考:因果推斷筆記——入門學習因果推斷在智能營銷、補貼的通用框架(十一)
主要貼一些案例上來,當然案例不是營銷方式的,但是不影響方法本身,可以遷移應用在評估上。
快手的 快手直播網頁版對快手APP直播觀看行為的影響
當treatment施加到一個群體或者地區上時,很難找到單一的對照組,這種時候采用合成控制方法構造虛擬對照組進行比較,原理是構造一個虛擬的對照組,通過treatment前的數據上學習的權重,擬合實驗組在實驗開始前的數據,模擬實驗組用戶在沒有接受實驗情況下的結果,構造合成控制組,實驗開始后,評估實驗組和合成控制組之間的差異。
2.4 Uplift Model
筆者之前在智能營銷增益(Uplift Modeling)模型——模型介紹(一)有舉例過一些案例,這里就貼其中一個過來,
阿里文娛智能營銷增益模型 ( Uplift Model ) 技術實踐
該問題的求解中有兩個關鍵點:
- 一個是用戶紅包敏感度的建模,
- 第二是在敏感度已知的情況下怎么進行全局效用最大化的求解。
Uplift model的目標是預測每個用戶在不同的紅包金額下的轉化率,從而構建出千人千面的敏感度曲線
總結
以上是生活随笔為你收集整理的活动、节假日、促销等营销方式的因果效应评估——方法模型篇(二)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: java商场满减活动_Java使用策略模
- 下一篇: vivo商城促销系统架构设计与实践-概览