【阿里妈妈数据科学系列】第一篇:认识在线实验
前言
在互聯網業務中,“增長”是永恒的主題,但隨著互聯網時代的發展,野蠻增長的流量紅利已逐漸消失,如何在策略效果不可見的條件下,實現有效增長是當下互聯網企業的難題。面對未知的策略價值,在線實驗成為了有效的測度手段,自2000年 Google 將實驗技術應用在互聯網產品中,在線實驗已經成為互聯網企業在策略驗證,產品迭代、算法優化、風險控制等方向必備的工具。在線實驗技術也逐漸成為數據科學領域中不可或缺的技術之一。
阿里媽媽在計算廣告領域中深耕多年,算法策略優化、產品迭代均離不開在線實驗的身影。經過多年的業務實踐與技術積累,阿里媽媽數據科學團隊總結沉淀了一套完整的實驗技術與方法。接下來,我們將以系列文章的形式為大家分享,內容包括:《認識在線實驗》、《在線分流框架下的AB實驗》、《離線抽樣框架下的AB實驗》等,歡迎感興趣同學關注~
認識在線實驗
1. 什么是在線實驗
One accurate measurement is worth more than a thousand expert opinions?
– Admiral Grace Hopper
1.1 起源
AB實驗的概念來源于生物醫學的隨機對照實驗(randomized controlled trial, RCT),主要用于對某種藥物的療效或療法的效果進行評估的手段,后被擴展在各個領域,如醫學、生物學、農學、社會學等。基本方法是將研究對象隨機分組,對不同的組采用不同的處理方式,通過與對照組的對比來得出實驗效果,隨機分組的方式可以有效避免實驗設計的偏倚與混雜因素,能夠最大限度的提升統計學結論的有效性,是目前公認的因果推斷的黃金準則。其核心思想是統計學的概率理論與控制變量法,所以在某些領域隨機對照實驗又被稱為控制實驗。
1.2 發展
隨著互聯網的崛起,近些年隨機對照實驗的思想與方法被廣泛應用在互聯網產品的迭代優化上,尤其在度過了流量紅利的時代后,用戶增長、價值增長變得越發困難,增速逐漸放緩,靠數據驅動增長成為了互聯網企業的一大發展主題,曾經隨機對照實驗迅速在互聯網生根發芽,與生物、醫學、社會學中的隨機對照實驗不同的是,互聯網讓實驗變得更容易。
1、樣本數量,在曾經的對照實驗中,獲取實驗樣本是極其困難的,在醫學實驗上,能夠符合實驗條件的樣本,往往只有幾十到幾百不等,這無疑為我們分組的隨機性畫上了一個問號,在小樣本下,小概率的引起的變異能否被消除?這一點在互聯網的實驗體系里得到了完美的解決,通常一個實驗場景的用戶數都數以萬計,甚至更多,大量的樣本對實驗結論的可靠程度,提供了最好的支持。
2、實驗成本,實驗成本其實也是制約了傳統對照實驗樣本數量的因素之一,在社會學調查中,每獲取一個樣本都需要一定的成本,可能是物力、財力、也可能是人力。對不同的分組采用不同的處理也同樣需要成本,因此這注定了傳統的對照實驗不可能選擇大規模實驗來提升實驗可靠性,互聯網的在線實驗由于計算性能的提升,在獲取樣本時幾乎不需要成本,這大大提升了實驗的可行性。
3、混雜因素控制,在線實驗通過精確的版本控制,保證了進入實驗的樣本均處在同樣的環境下,有效的避免了混雜因素的干擾,保證了實驗結論的因果性。
2. 為什么要做實驗
2.1 因果推斷
ABTest 作為因果推斷的黃金準則,能夠有效的判斷,變量間的因果關系,相比現在的因果推斷理論方法,ABTest 結論更加直觀,基于控制變量的思想,在拋開個體的因果條件下,從總體層面關注實驗因素的因果關系,回答了變量是否導致能夠導致效應。
2.2 價值評估
對于多數的 ABTest 除了對因果推斷給出一個定性的結論時,還需要有一個定量的結果,能夠精確量化"處理"的價值,可能是收入提升、用戶數提升、效率提升等。能夠量化是數據驅動的前提,通過對于目標的量化,我們能夠衡量出一個項目的價值,一個產品改動帶來的收益、一個交互體驗的變動對用戶的影響。為后續的策略制定起到指導的作用。
2.3 風險控制
任何一次優化都伴隨著風險,我們不能保證每次的優化對于用戶都是正向、或者對整體目標是正向的,在控制風險的前提下,小流量的 ABTest 能夠幫助我們預估大規模上線帶來的風險,通過對實驗目標的評估,做出正向或者負向的反饋,ABTest 為我們提供了試錯的條件,在一定的試錯機制下,能夠有序的推行產品迭代與效率提升。
3. 實驗的分類
3.1 ABTest
3.1.1 AB 實驗
AB實驗是受控隨機化實驗(randomized control trial, RTC)的通俗名稱,也翻譯為AB測試,或寫為A/B實驗。在一個標準的AB實驗中,研究者通過隨機化分組的方法來比較單個變量的兩個版本,所采用的統計分析方法是雙樣本假設檢驗。以下圖為例,A和B分別代表了一個按鈕的兩種設計,差別僅僅在于按鈕的顏色。起初,設計師并不知道用戶更喜歡哪一個顏色,因此采用隨機化展示不同版本的按鈕的方式來收集數據,并最終確定按鈕顏色選擇。
AB實驗的流程一般遵循以下步驟:
1.確定目標,即描述目標指標。在按鈕顏色選擇的例子中,目標可以設為提升用戶對按鈕的點擊,相應的指標就可以選為點擊率。
2.確定隨機化分組的單位,然后進行分組。在業務實踐中,分組單位一般是用戶UV,或者流量(page view,PV)。RTC的原理要求被分組的單位之間彼此獨立,這個要求是進行分組對象選擇時最重要的考量。在按鈕顏色選擇的例子中,我們通常既可以選擇PV也可以選擇UV為單位。但在復雜一些的環境中,PV和UV的獨立性假設都有可能不被滿足。比如,假定我們的受試用戶的瀏覽行為有極大差異,少數用戶貢獻了大多數的瀏覽,那么PV之間的獨立性就可能受到削弱,以為不同PV來自于同一個用戶的可能性比較大。又比如,用戶之間有社交聯系,那么UV之間的獨立性也會受到削弱。
3.確定樣本量,這一步在統計學中被成為“勢分析”(power analysis)。在具體業務中,確定樣本量涉及到兩個決策:受試用戶或流量的占比,和實驗運行的時長。試驗者需要在兩個決策之間進行權衡:較低的受試占比意味著較低的業務風險,但同時也意味著實驗必須運行更久才能產生滿足要求的樣本量。
4.假設檢驗,在收集到預先設定的樣本量后,我們就可以開進行假設檢驗。通常的統計假設是關于兩個版本的均值的,比如,在這里和分別代表兩個按鈕的期望點擊率。標準的雙樣本t-檢驗就可以被用來進行假設檢驗,在實際業務中,實驗者一般都會采用大樣本理論(asymptotic theory)版本的t-檢驗,也即z-檢驗,因為從實驗組和控制組收集到的數據點一般遠遠多于30個,大樣本近似分布足夠提供可靠的檢驗。
3.1.2 ABn 實驗
ABn實驗是比較單一變量多個版本的實驗。以下圖為例,實驗者可以同時比較多個顏色的按鈕版本。
需要指出的是,在很多文獻和產品中,“AB實驗”也用來指代ABn實驗,比如在 Google Optimize 中的“AB實驗“組件,用戶可以同時測試多個版本的素材。
ABn實驗的假設檢驗可以分為兩類:
1.涉及雙樣本的假設檢驗;
2.涉及兩個以上樣本的假設檢驗。
涉及雙樣本的假設檢驗既包括不同版本之間的兩兩比較(例如比較紅色按鈕和藍色按鈕的點擊率的差別),又包括將不同版本加總后的兩兩比較(例如比較冷色調按鈕的點擊率和暖色調按鈕的點擊率的差別)。無論是那一種,檢驗方法與標準的AB實驗是相同的。
涉及多個樣本的假設檢驗則需要比t-檢驗更為通用的檢驗方法,其中適用場景最廣、所需假設最少的檢驗方法是檢驗。統計量的構造方式如下:
其中O代表觀察到的數量,E代表在原假設成立條件下的期望值。把加項的數目記為k,那么在樣本量趨向于無限時統計量的分布收斂于分布()。還是以按鈕顏色為例,假定我們的原假設是每個顏色的按鈕的點擊率都是相同的,即,而我們觀察到的按鈕點擊數據如下:
統計量中的O可以從數據中直接讀出,為30、15、50、100。在原假設之下,每個E的值都為1000*4.9%=49。由此,我們可以計算出相應的統計量 = 84.5。通過對比的()分布,我們就可以得出結論:可以在99%的置信水平上拒絕原假設。
值得指出的是,在檢驗涉及到超過兩個樣本均值的假設,如時,另一種廣為人知的檢驗方法是方差分析(ANOVA),然而由于方差分析還需要基于對方差是否相等的假設而在統計量的構造上有所區分,并且方差分析的F-統計量在樣本量趨向于無限時與統計量的分布趨同,因此在一般互聯網企業的日常業務中,通常沒有必要采取方差分析。方差分析的優勢在于,當樣本量很小時,它能夠給出比基于大樣本理論的-檢驗更為精確的結果,因此更適用于收集數據成本極高的場景,比如臨床實驗。
3.1.3 AA 實驗
AA是比較單一變量同一個版本的實驗,可以看作是AB實驗的一個特殊版本。一般來說,AA實驗是用來檢驗AB實驗的設計是否合理的工具。如果實驗設計得當,那么我們預期AA實驗將得出實驗組與對照組沒有顯著差異的結論。
繼續按鈕顏色的例子,AA實驗比較的是兩個一模一樣的按鈕的點擊率,實驗的流程與AB實驗相同。如果最終結果顯示兩個按鈕的點擊率有統計意義上顯著的差異,那么有兩種可能:1.出現了第一類錯誤;2.實驗在至少一個步驟上出現了問題。
第一種可能性是無法避免的,因為假設檢驗本身預設了一個第一類錯誤的概率,通常被設為5%,因此由于第一種可能性而出現AA實驗顯著差異的概率就是5%。
而更常見的則是第二種可能性,往往是實驗對象分組的隨機性不夠,使得實驗組和控制組的受試對象有內在的差異所導致。針對AA實驗得出的顯著差異,實驗者需要對受試對象進行再隨機化分組,重新進行統計檢驗,這個過程可能需要重復若干次,直至檢驗不再反映出顯著差異,接下來則可以基于這一分組開始AB實驗。
3.1.4 MVT
MVT是 Multivariate Test 的縮寫,是比較多個變量不同版本的實驗。在下圖的例子中,按鈕的顏色有兩種,文字也有兩種,一共構成了四種組合。
如果僅僅為了找出點擊率最高的按鈕,那么我們可以沿用ABn實驗的方法,把不同顏色和文字的組合看作不同版本的按鈕就可以了。但是MVT的結構還允許我們進行更復雜的假設檢驗,比如 顏色和文字對點擊率的影響是獨立的。檢驗這個假設對按鈕的設計很有指導意義,如果原假設為真,那我們就可以依次優化按鈕的顏色和順序。
檢驗的方法依然是-檢驗。假設我們觀察到的點擊量如下(假定每個按鈕的PV都為1000):
從上表我們可以算出,紅色按鈕的點擊率是2.25%,綠色按鈕的點擊率是7.5%,“Sign Up”的點擊率是4%,“Contact Us”的點擊率是5.75%。如果原假設成立,每個顏色和文字的組合中期望點擊率將正比于相應顏色點擊率和文字點擊率的乘積,經計算,在原假設下的期望點擊數量如下:
套用統計量的公式我們計算出統計量 = 15.9。通過對比()的分布,我們就可以得出結論:可以在99%的置信水平上拒絕原假設。
AB Test 在最初的簡單對比的基礎上已經演化出了很多其他的版本,在不同的業務場景上發揮著不同的作用,例如通過MAB算法自動分配流量比率的實驗系統,能夠解決AB實驗的決策問題;Netflix 推出的 Interleaved Test 實驗方法,以算法策略作為隨機單元,可以快速過濾出有效的少數策略,大幅降低了實驗迭代的時間,以上僅是對現有實驗方法的簡單列舉,后續的文章中,我們將逐步對每種方法進行介紹。
3.2 類實驗
3.2.1 定義
從嚴格定義上來說,類實驗研究是因為受實際條件所限不能隨機分組或不能設立平行的對照組,不能完全符合上述條件,這樣的研究稱為類實驗或準實驗。實際上類實驗更多的是人們遵照AB實驗的邏輯,逐步放寬實驗限定而形成的實驗方法,核心思想依然是控制變量的對比法。
3.2.2 特點
其特點在于:①因實際情況不允許,研究對象常不作隨機分組;②研究對象數量較大、范圍較廣;③無平行的對照,有時有內對照或自身對照。
類實驗的設計與實施原則與標準的現場實驗相比,除研究對象的分組一項之外,其余基本相同。類實驗無法隨機設對照組,但仍常設非隨機對照組。這種類型的研究用得很多。例如,政策制定者對某城市選擇高鐵建設而隔壁城市不經過,對比兩座城市因為高鐵帶動的經濟差異,又如選擇甲校學生注射某種新的生物制品以預防某病,而乙校不注射,然后甲乙兩校作比較。
類實驗也可不另設對照組,而以實驗組自身為對照,即干預試驗前和干預試驗后相比。某些情況下,亦可不做實驗前的測量,只做干預后的測量。此時的前提是,研究者十分熟悉研究對象及現場的情況,十分明確不給干預措施可能出現的結果。
3.2.3 常用的實驗性研究設計
以下我們介紹幾種常用的類實驗對比設計:
自身前后對照
對研究對象自身在干預前后兩個階段的效果進行觀察或測量,以評價干預效果。自身對照中,對照組和實驗組的數據來自同一樣本,自身對照更多的應用在無法分組的場景下,比如政策實施前后的效果差異,自身對照中存在明顯的缺陷是,我們無法對時間變量進行控制,因此自身對照更多的是作為一些定性分析而應用。
分組前后對照設計
將研究對象隨機分為實驗組和對照組,實驗組給與干預措施,對照組不干預,得出自變量與因變量之間的關系,前后對照設計是我們在客戶實驗常用的實驗方法,也是研究計量經濟政策效果中常用的方法,此處會采用DID的方法,用以平衡實驗前的干擾。
分組后對照設計
類似實驗前后對照設計,但是無法進行前后比較的實驗,這主要是對于歷史數據的缺失造成的,例如新客分組,在用戶成為我們的新客之前,我們并有沒用戶相關的歷史數據,因此無法對干預措施前的歷史數據做有效的測量,只能假設實驗前分組并無差異,以干預后的測量結果作為最終的實驗效果。
索羅門四組設計模式
結合實驗前后對照設計與單純實驗后對照設計的實驗方案,但是實際實施難度較大,通常并不作為常用的實驗手段。
4. 總結
實驗科學近些年已經逐步演變成一門獨立的科學,應該說AB實驗是理論統計學與互聯網技術結合的最好典范,通過互聯網技術解決理論統計學上的假設門檻,使得原本苛刻的理論能夠有效的支持數據決策。以上,我們對AB實驗的起源發展以及實驗類型做了簡要的介紹,后續我們會逐步分享在阿里媽媽業務場景下如何應用AB實驗來實際問題,包含標準的ABTest應用,也有基于阿里媽媽特殊業務場景演化出的實驗方案,敬請期待。
END
瘋狂暗示↓↓↓↓↓↓↓
總結
以上是生活随笔為你收集整理的【阿里妈妈数据科学系列】第一篇:认识在线实验的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: CVPR 2021 | 如何让GAN的训
- 下一篇: 高并发图片实时渲染技术在阿里妈妈的大规模