鹅厂分享:AB实验只是开始?如何归因和解读才是王道!
分享嘉賓:錢橙?騰訊 高級數據研發工程師
編輯整理:Theodore 廈門大學
出品平臺:DataFunTalk
導讀:大家好,我是來自騰訊看點數據平臺中心的錢橙,之前主要負責看點內部AB實驗平臺的建設工作,現階段更多的精力是參與到了業務方的實驗分析當中。實驗分析是決定整個實驗最終結論產出的環節,相比于分析業務報表,對于實驗結果的解讀需要我們更多的挖掘以及歸因,所需要的方法論和分析手段也更多。這里我將我們在實驗分析中一些思考和經驗給大家分享。
今天的討論會圍繞下面四個方面展開:
在線對照實驗
實驗分析案例實踐
實驗分析規范
問答環節
01
在線對照實驗
1.?實驗簡介
相信大家平時聽的最多,了解最多的就是AB實驗了,如果大家過多地關注于AB實驗中的“AB”這個概念,反而會讓我們對于AB實驗的理解不夠充分和深刻。所以在這里,我想先和大家聊聊什么叫實驗。
實驗定義是:為了驗證某種理論或假設而添加人為干預的過程。因此實驗的直接目的其實就是為了驗證假設。每個實驗都會有不同的影響因子、不同的研究對象,所以整個實驗的核心是在于實驗設計,在實驗設計階段我們就需要確定好實驗對象、實驗目標以及干預手段這些實驗要素。比如實驗是關注方差還是處理效應,實驗人群是同質的還是異質的,實驗的因子是單個的還是多因素等等。這些實驗要素的不同組合就可以區分出很多不同的實驗類型,而AB實驗只是整個實驗設計體系中的一小塊。
AB實驗的原型是CRD(completely randomized design),也就是完全隨機實驗。完全隨機實驗的定義是使用完全隨機化的方法將同質的受試對象分配到各個處理組然后觀察各組的實驗效應。所以從上面的定義來看,AB實驗的處理組就是A和B。AB實驗的兩個要點就是完全隨機化和同質的實驗對象。
除了AB實驗,我們在復雜的業務場景中也會有很多更復雜的實驗類型。比方說,當實驗對象不是個體粒度,而是一個特定的地理區域時,我們比較難找到同質的對照組,這時候需要用合成控制法來擬合出一個群體作為對照組;當實驗單元之間存在一些策略溢出時可以用時間片輪轉的方式做一些實驗設計;涉及到一些優化的場景,比如我們希望最終實驗的收益最大化時,我們可以采用MAB(多臂老虎機)的實驗方案,做在線的流量配置,滿足業務需求。因此實驗設計是多種多樣的,后續我們的實驗分析應該按照實際的實驗假設以及設計去展開。
2.?實驗在信息流場景的應用
下面簡單介紹騰訊看點的實驗整體運行的機制,騰訊看點目前線上并行的實驗分層數大概為500多個,線上提供了超過2000指標作為候選,也有100多個維度標簽供用戶選擇。不同團隊每天都會有很多實驗在并行,推薦、增長及產品等等團隊,每天都會有一些新的策略上線嘗試。
3.?實驗分析現狀
看點的實驗科學團隊會對一些重點以及跨業務線的實驗分析需求進行支持,對于不符合預期的異常實驗,也會評審后做進一步跟進。同時業務分析團隊也會自己內部閉環進行一些簡單的實驗分析。最終,所有實驗的分析結果與實驗決策都會由實驗決策委員會來做最終的判定。
介紹完了實驗的背景知識以及業務應用,下面我會通過幾個線上的真實實驗分析案例,來分享下在實驗分析過程中我們需要注意的地方,以及如何通過對實驗結果的歸因和解讀,產出科學的實驗報告。
02
實驗分析實踐
1.?信息流實驗背景
左邊是看點瀏覽器信息流的頁面,傳統的信息流其實可以看作是一個雙邊市場,一端是用戶,另一端是CP,也就是內容創作者。推薦系統其實就是一個連接器將用戶和內容創作者連接在一起,因此在這個鏈路上,每個部分都可以有很多的實驗策略。C端可以做一些產品策略及運營的實驗,B端則可以做內容優化及創作者激勵相關的實驗,推薦端方面可以做自動尋參,召回排序算法優化等。下面我就從這條鏈路上選一些案例來做分享。
2.?C端、推薦類實驗分析實踐
首先第一個案例是閃屏廣告策略調整的實驗,先介紹下新策略產生的背景:如左邊的圖片所示,QQ瀏覽器啟動的頁面一般會給用戶出一些短暫的運營活動頁面或者時間比較短的廣告。以往的廣告策略是:用戶如果兩次熱啟動時間間隔超過1分鐘,我們就會在用戶第二次打開APP的時候出一個閃屏廣告。但是在這么短的時間間隔內連續出廣告其實會給用戶帶來很多體驗上的反感,我們不管是內部體驗還是從數據分析上都會發現這樣的問題。
因此在這樣的背景下就提出了一個實驗假設:當前熱啟大于1分鐘就會出現閃屏,會對用戶體驗存在干擾,延長出閃屏間隔有助于優化用戶體驗,帶來人均活躍天數的增加。
在這樣的假設下,我們梳理一下實驗流程:在用戶啟動app后,會觸發一個在線分流服務,根據分流結果拉取策略配置,并根據數據上報鏈路最終匯總到實驗平臺。按照這樣的實驗通路,我們從實驗平臺上拿到了這樣的實驗摘要。可以看圖上的表格,可以看到對于人均活躍天數這樣一個指標的相對提升是很小的,結果也可以說是不置信的。對于人均總時長這個直白哦,是有一些置信的提升,單提升的幅度也很小。因此從實驗平臺的結果來看,這是一個平淡的策略,我們犧牲了不少廣告收入,但是并沒有帶來想象中對于業務指標較大的提升。但這樣的實驗結論是否是正確的呢?
我們來進一步對整個策略生效的鏈路進行拆解細化:假定有這樣一個用戶,他每次熱啟動間隔都在5分鐘以上,那么這個用戶無論是在實驗組還是對照組,都是感覺不到策略的變化的;同樣如果用戶熱啟動間隔每次都在1分鐘以內,也是感覺不到策略的改變,故真正可感知策略調整的用戶,其實是熱啟間隔在1-5分鐘的人群,這一部分用戶才是策略真正生效的實驗對象。對實驗組和對照組的策略下發人群,都按照這樣的規則進行圈選,可以看到在整個受試群體中,能夠真實命中實驗的人數只占20%左右。在這一部分人群中,人群活躍天數和人均總收入其實都是有一個非常置信的提升的。具體數值可以關注圖上右側的表格。
另外一個比較可喜的表現是,理論上我們這樣一個策略會讓客戶體驗到更少的廣告,收入應該是要下降的,但是這里人均總收入卻有一個非常好的提升。后面我們做了一些關聯分析,發現原因是這個策略可以帶來用戶活躍度的增加,進一步帶動了除閃屏廣告外其他收入指標提升,因此帶來了人均總收入的提升。所以,經過更細致的分析,我們發現這其實是一個非常好的策略,可以上線應用。
從這個實驗我們可以發現,關注不同的群體得到的實驗結論有可能是不一樣的。怎么從原理上來理解并且分析這樣一個事情呢,這里我們引用一些因果推斷領域的定義。一般來說,我們會關注策略整體的表現,即研究大盤的整體指標表現,這種分析叫做intention-to-treat (ITT) analysis。但同時我們也要關注策略真實的處理效應,即策略會給用戶帶來怎樣的變化,因為并不是所有用戶都會服從(comply)我們的策略,我們把這種分析叫做complier average causal effect (CACE)。???
舉個研究減少吸煙對人群健康影響程度的實驗案例。如果不考慮生活背景,我們可以隨機地選取兩組人群,對其中一組人,在實驗中我們強制這組人不吸煙,而對另外一組人則設定需要強制所有人都吸煙,但大家都知道這是不現實的也肯定不會發生的。因此我們能做的只能是給到實驗組的人一些戒煙的激勵,比如金錢上的獎勵,而對于對照組的人群則不進行激勵,通過這種方式對兩組人群做差異的度量。
如果我們是進行ITT的分析,我們會關注的是實驗組和對照組整體在觀測指標的差異;但現實情況是并不是所有實驗組的人都會戒煙,所以ITT的結果是稀釋了真實的策略影響效果的。我們真正更關注的應該是在個體粒度上,一個人是否會因為我的激勵政策進行戒煙,不吸煙后身體健康狀況是否有所改變,這也就是CACE在做的分析。因此我們在做CACE的第一步就是需要對用戶群體進行劃分,我們真正關注的人群是做了激勵會戒煙,不做激勵則不會戒煙這樣一個群體,對于這部分人群的研究才是可以真正反映我們策略的直接有效性的實驗群體。
因此通過這個案例,也給出一些實驗分析的建議:首先任何實驗分析前,是需要關注策略真正觸達人群的占比,如果占比過低,實驗的效果一般會被稀釋。另外一個建議是既要關注大盤整體外在有效性,也要關注策略真正觸達人群的內在表現。實驗的外在有效性可以幫助我們了解策略對于大盤的影響,而內在有效性可以讓我們明白策略的生效原理,判斷策略的直接影響。
當然,在做CACE的分析時,不像我們上面所舉的例子,很多真正策略觸達人群是很難通過業務策略圈定的,這時候就需要做一些額外的處理。這里我們給到幾個小的建議方向:1是可以通過一些工具變量來進行輔助分析;2是可以通過matching的手段在對照組找到相似的生效人群;3是在實驗設計時通過一些假實驗的方案來提前做一些優化。
第二個案例是一個春節紅包福利的案例,實驗背景是在春節期間看點上線了一個紅包福利的活動,用戶在進入QQ看點之后會收到一個彈窗的提醒,如果用戶點開了紅包圖標之后會進入紅包活動頁面,通過做完一些閱讀任務之后可以領取到紅包。
這個活動的目的是希望通過一系列激勵動作,引導用戶形成內容消費的認知與習慣,帶來長期來講用戶留存的一個增長。
為了對這樣一個活動的效果進行分析,產品人員在實驗平臺上預留了1%的流量用來觀察對照,剩余99%的流量上線了紅包活動。實驗對象為線上全體用戶,觀察指標為北極星指標以及負反饋量等護欄指標,實驗周期保持為整個活動期間。從實驗平臺給出的最終的數據來看,實驗組的累計時長提升0.4%,參與用戶的觀測指標均提升顯著,可以認為策略的確是有效果的,但是在后續的復盤中我們發現一些風險點。
首先,像這種C端活動常常會出現"溢出效應"。因為這樣的活動通常都是帶有分享機制的,如果實驗組用戶將活動鏈接分享給對照組用戶,那么對照組也受到實驗干預,實驗效果被稀釋。大家可以試想這樣一個情況,當我收到這樣一個紅包活動,根據任務提示,需要將這樣一個紅包鏈接分享給我的好友,但如果好友如果恰巧在對照組中,對照組用戶就會被動地參與到這樣一個活動中,所以對照組的表現就會受到影響,這就是溢出效益。像這種現象在B端實驗中也是非常常見的,我們發現CP的作者會建一些微信群進行分潤活動的交流,導致我們對創作者做一些AB實驗策略上線時,基本上群里所有的人都知道了,對照組的用戶是受到了污染,對照組的數據失真。
這種問題的解決方式有兩個點,第一種是在實驗設計時基于關系鏈分流,通過一些圖聚類的方式進行分流,實驗組和對照組的均勻性和一致性通過檢驗后再上線我們的策略。第二種是在實驗分析的時候可以通過數據上報做一些剔除,驗證完AA是否均勻以及觀測樣本無偏性后再做進一步的實驗分析。
這個案例的第二個問題點是,實驗分析和實驗假設不是特別吻合。首先我們可以回顧一下當時的實驗假設:紅包活動的目的是去引導用戶使用和體驗產品,讓用戶形成或更新產品認知,從而實現活躍的躍遷,帶來長期的用戶收益,如:用戶的消費時長和用戶的留存得到一個提升。但我們發現,業務方僅僅關心實驗期間的數據,但實驗期間的數據是一直收到活動激勵的持續影響的,那這個數據的提升是非常顯然的,并不是我們真正應該關注的。我們真正應該關注的是實驗結束這一段時間,這個時間內的用戶表現才可以真正驗證實驗假設:是否我們的策略能否帶來良好的用戶收益。
當然除了對已有的實驗數據的進行一些描述性結論外。我們還可以做更多的一些分析,尤其是對于這種福利類的活動,我們錢都花出去了,我們當然是希望能挖掘出更多的價值。所以這里也有兩點挖掘的建議,一個是我們可以根據用戶的一些表現來建立用戶興趣福利標簽,給到線上的推薦系統,優化線上推薦體系;或者是給到畫像系統,以后做類似的運營活動可以有參考。第二個建議是可以通過一些Uplift Modelling的建模方案,找出來策略能最高效轉化的用戶,這樣可以把錢花在刀刃上,也是可以提高我們后續的運營活動的效率。
所以結合這個案例,我們這邊給到的實驗分析的建議如下:
第一點,了解實驗單元和分析單元,避免結論的謬誤;
第二點,實驗分析緊跟實驗假設和實驗設計,分析結論應該圍繞實驗設計開展;
第三點,在線對照實驗是解決因果推斷最高效直接的手段,需要充分利用好實驗的效果數據,挖掘更多的價值。
推薦的實驗有非常多種,比如超參數的選擇,模型的升級,推薦策略的優化,這些都是可以通過實驗來數據觀測和驗證假設的。在推薦領域,實驗就不單單是AB實驗了,像搜索排序類的實驗是可以通過Interleaving實現更高效的對照和流量的縮減。此外如果策略空間是有限的,則可以通過MAB的手段來實現策略的尋優。MAB是可以根據實時的線上動態表現做一個流量分配的,是一個非常高效的實驗手段。還有就是涉及到多目標的參數選擇,可以用常見的在線自動尋參實驗。因此實驗的類型是很多的,所以在做實驗分析的時候需要我們掌握很多關于實驗設計的底層知識,在做具體業務的時候去做更精細的一些分析。
接下來是一個推薦類實驗的案例。在騰訊看點的瀏覽信息頁面中會有一些熱點卡片,負責熱點內容推薦的同學需要對線上熱點推薦的算法做一些升級。也就是想驗證這樣一個問題:針對全體用戶,當前優化熱點算法的策略是否可以帶來視頻熱點內容點擊和時長的提升。在跑完一個完整的實驗周期后,推薦的同學給出下述實驗結論:視頻和大盤的時長,點擊均有明顯提升,熱點CTR有明顯提升,實驗優化的效果是不錯的。
實驗結束后,我們在核驗時發現了一些問題。首先是前期實驗描述中缺少對策略的描述,也沒有提供對過程指標影響的描述。同時大盤時長這一個指標的提升比較反常,與以往推薦類的實驗經驗相悖。通過和業務方交流后,我們梳理出這樣一個實驗的鏈路圖,如上圖所示。可以看到其實這是一個復合的策略:總的來說是通過一些召回和聚類算法的優化,預期是能夠讓視頻熱點推薦更能吸引用戶,帶來CTR的提升和最終的大盤收益。
我們根據業務邏輯,進行了實驗生效鏈路的邏輯拆解:首先第一點可以關注視頻熱點內容曝光這一指標,這樣指標是在下降的,反映的是策略是真實有效的,因為推薦算法實際上是把我們的內容池降低了,把一些無關熱點或者點擊率非常低的內容移除,所以曝光的概率會更低。但是曝光指標的下降對我們的視頻熱點的產生了非常大的影響,理論上CTR應該是要提升的,實際卻發生了下降。
那么這樣的過程指標就說明我們的策略可能是存在問題。同樣熱點內容的CTR也發生了下降,即預期提升的指標也沒有提升。因此雖然大盤有提升,但并不是因為策略的優化帶來的提升,所以這個策略我們最終不建議做一個全量上線,還需要做進一步的探查。因此從這樣一個案例,我們給出的建議是:對于一些實驗指標異常的排查,我們需要梳理一個策略生效的鏈路圖,這樣可以比較直接的去找到策略的矛盾點。
一般來講,推薦類的實驗,常常都會存在一些人群的異質性效果,所以我們建議對于每個推薦類實驗分析,在實驗完成之后都要產出一個實驗效果地圖。如上圖所示,這樣的效果地圖可以反映出來當前這樣的策略對于維度組合下的用戶影響。同時,每一個實驗都可以產出這樣一個地圖,而每個實驗的地圖其實是可以疊加的,通過對一系列實驗效果的疊加可以很直觀的了解到近期發布的推薦實驗到底是對那些用戶群體效果比較好,哪些用戶一直沒有觸達到。同時對于對于后續策略的發力點也是有非常好的指引,比如說針對當前實驗,是否需要進行多目標調參等等。
3.?B端實驗難點
最后說一說B端實驗,B端實驗一般是指策略是作用在內容池或者內容創作者上的實驗,比如說對于內容池可能會做一些低質的過濾、熱點運營、清晰度的調整等等。對于內容創作者的話可能會做一些分潤策略的調整或者說一些賬號規則的調整。
B端實驗的首要的難點通常是實驗單元和分析單元是不一致的,因為實驗單元通常都是我們B端的一些指標,但觀測指標往往都是大盤指標,所以就會存在實驗單元和分析單元不一致的情況。第二個難點就是說和B端的合作有可能數據鏈路會比較復雜,也需要和外部的公司做一些打通,因此對應的實驗設計也是非常高階。在看點這邊通常會把B端實驗轉化成一些C端實驗來做,后續也是根據C端實驗的套路來進行分析。所以B端的實驗還是要結合具體實驗設計開展,大的分析思路還是我們要確定好分析對象,以及要綜合考慮B端生態的整體表現。
03
實驗分析規范
1.?標準實驗流程
最后對實驗分析規范做一個總結,實驗分析的基礎還是離不開一個科學合理的實驗分析流程的,第一步是根據問題形成我們的實驗假設,假設需要邏輯基礎以及可量化的特性;第二步就是進行實驗設計,需要明確實驗對象實驗目的以及干預手段;第三步就是上線實驗策略并進行持續觀察;最后就是細致分析實驗結果和最終決策的過程。
2.?實驗分析規范
其實數據分析的目的就是為了幫助業務看得更清看得更遠,在這個大目標下,我們提出一些實驗設計的規范和建議。首先是要緊扣實驗假設實驗設計,需要關注實驗周期與最小檢測差異等統計量,同樣地要理清策略生效鏈路,重點關注結果指標,北極星指標表現,關注指標趨勢。第三點要進行策略的人群異質性效應的挖掘,從歸因角度給出高貢獻度人群。此外由于實驗數據是非常寶貴的,我們需要進一步對實驗數據進行信息挖掘,將結果對接到線上系統,也可以把實驗分析的模型做一些工具化的落地。第四點是要給到業務方明確的上線風險與收益,需要評估實驗的長期效應和與其他策略的交互作用。最后一點,需要把實驗分析的結論沉淀在知識庫中,為下一次的迭代儲備基礎。
所以總的來說,實驗結果分析是整個實驗周期中壓軸的環節,分析有三個方向,一個是要規避系統性風險,不要過度依賴實驗平臺結論;第二個是要評估策略的有效性,依靠量化數據來驗證實驗假設;第三個就是要評估好業務有效性,這樣才能保證產品長期正向增長。
04
問答環節
Q:B端實驗如果樣本量很小,樣本間差異大應該怎么做?
A:如果差異比較大的話,我這邊有兩點的建議,一個是分流方案可以通過用戶的特征做匹配,盡量生成均勻的對照組;第二個是在分析過程中可以明確出來這些差異,如果這些差異是固定存在的話,我們可以通過一些DID的方式來做實驗效果的評估。
Q:B端實驗會關注哪些指標?
A:看業務,如果實驗是對清晰度做一個調整,那重點會關注用戶的點擊率及線上內容的生態是否會有影響,需要結合業務場景從C端和B端選取。
Q:實驗策略對平臺生態是不可逆的應該如何處理?
A:通常實驗目的是去驗證一個問題會不會發生,所以在實驗設計時就應該去規避這樣一些問題,如果發現這樣的策略會對線上生態造成非常大的影響,那可以不上線這樣的策略。此外還要結合業務的理解,結合全局業務指標來看。
Q:第一個閃屏案例中最終決定策略是什么?
A:最后采取了延長到5分鐘的方案,策略已經上線了。
Q:如何在實驗分析中保證效果是否均勻?
A:可能這個同學是想問實驗指標的趨勢,第一個點的話就是說需要在實驗達到最小樣本量后去看實驗結果,可以保證策略的有效性;第二點就是不單看策略的截面數據,也要看每天的差異數據,這樣觀察策略是否存在新奇效應,需要對差異做一些監控和判斷。如果差異趨勢沒有穩定的話,一個是可以建議延長實驗時間,等差異穩定了再上線。如果策略一定要上線,可以留一個長期的對照桶,對策略做長期監控,如果策略有反轉或異常可以及時的做回測。
Q:對照組如果被干預,剔除后樣本量過小,這個時候建議是延長實驗時間嗎?
A:如果剔除會違背了對照組和實驗組完全均勻同質這樣一個條件的話,我們會建議對實驗組使用一些匹配策略,匹配成和對照組類似的用戶,然后做分析。如果剔除不會改變用戶的一些統計量分布,其實可以繼續實驗,雖然流量是不一致的,但是我們可以通過指標轉換來分析實驗的效果。
今天的分享就到這里,希望大家能夠以后在實現分析中有一些更好地實踐,從而更好地驅動業務的增長。
↘好文推薦:
Notion:后office時代的新生產力平臺
超全!體驗度量理論2021版
干貨!最全需求評審指南,讓你不再怕被懟點個“在看”吧
總結
以上是生活随笔為你收集整理的鹅厂分享:AB实验只是开始?如何归因和解读才是王道!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 美团王庆:当老板对指标进行灵魂拷问时,该
- 下一篇: 被玩坏的社区团购