谷歌、微软、亚马逊6个惊人的A/B测试实例
導讀:本文介紹的其他實例都有不同尋常且出乎預料的正面結果。
作者:羅恩·科哈維(Ron Kohavi)、黛安·唐(Diane Tang)、許亞(Ya Xu)
來源:大數據DT(ID:hzdashuju)
如果你認為一件事情會發生,然后它真的發生了,那么你不會學到什么。如果你認為一件事情會發生,但沒有發生,那么你會學到一些重要的東西。如果你原本認為一件事情不值一提,但它帶來了驚人的或突破性的結果,那么你會學到一些非常有價值的東西。?
必應和社交網絡(如臉書和推特)相結合的嘗試,是一個沒有達到預期效果的例子——這一嘗試在歷經了長達兩年的多個結果顯示無價值的實驗后告棄。
雖然經久的進步來自持續的實驗和很多小的改進(如必應廣告的例子所示),但這里介紹的幾個有驚人效果的例子表明了我們有多不擅長預估想法的價值。?
01 UI實例:41階藍
谷歌和微軟的很多例子都一致顯示:小的界面設計決策也可能有重大的影響。谷歌在搜索結果頁面上測試過41個階度的藍色,這讓當時的視覺設計負責人很受挫。
然而,谷歌對配色方案的調整給用戶活躍度帶來了實質性的提高(谷歌沒有報告單一改動的結果),并促成了之后設計團隊和實驗團隊的高度協作關系。
微軟的必應也做過類似的配色改動,幫助用戶更成功地完成任務,改善了任務成功需時,將美國市場的年營收提高了超過1千萬美金。?
這些都是微小改動帶來巨大影響的很好的例子,但由于配色方案已經被廣泛地測試,在更多實驗中“玩”配色已不太可能帶來更加顯著的改進。?
02 在正確的時機顯示推廣
2004年,亞馬遜在主頁上放置了信用卡推廣,該推廣帶來了可觀的利潤,但是點擊率(Click-Through Rate, CTR)很低。團隊進而運行了把該推廣移至購物車頁面的實驗,用戶把商品加入購物車后,可以看到一個簡單的計算,從而對該信用卡帶來的優惠額度一目了然,如圖1.5所示。
▲圖1.5 亞馬遜購物車的信用卡推廣
因為已經在購物車添加了商品的用戶有非常明確的購物意圖,所以這一推廣出現在了正確的時機。對照實驗顯示這一簡單的改動幫助亞馬遜增加了數千萬美金的年利潤。?
03 個性化推薦
亞馬遜的Greg Linden做過一個產品雛形,根據用戶購物車里的商品顯示個性化的推薦。當你添加一件商品時,會看到一些推薦,再添加另一件商品,會看到新的推薦。
Grey Linden指出,雖然這個產品雛形看起來頗有前景,但一個市場營銷高級副總裁極力反對,稱它會分散用戶注意力而影響結賬。Greg Linden被禁止繼續這項工作。
盡管如此,他還是運行了一個對照實驗,并且這一新功能大幅獲勝,放棄它將使亞馬遜蒙受可觀的損失。帶著新的緊迫性,購物車推薦很快被發布了。如今,很多網站都在使用購物車推薦模型。?
04 速度非常關鍵
2012年,微軟必應的一個工程師對JavaScript的生成方式做了改動,大大縮短了HTML到達客戶端的時間,從而提高了性能。相應的對照實驗顯示了多項指標令人驚嘆的改進。
他們接著做了跟進實驗來測量對服務器性能的影響。結果顯示性能提高的同時也顯著提高了關鍵用戶指標,例如成功率和首任務成功需時,且每10毫秒的性能提升(眨眼速度的1/30)足以支付雇傭一個全職工程師一年的成本。
2015年,隨著必應性能的提高,人們產生了疑問:服務器結果返回時間的95百分位數(即95%的搜索請求)已經在1秒以下,進一步提高性能是否仍有價值。必應的團隊開展了跟進研究,發現關鍵用戶指標仍舊得到了顯著提高。
雖然對營收的相對影響有一定程度的減弱,但由于必應的營收在那幾年增長如此之多,以至于性能上每1毫秒的提升都比過去更有價值,每4毫秒的改進就能雇傭一個工程師一年!
許多公司都做過性能實驗,結果都顯示性能多么關鍵。在亞馬遜,一個100毫秒的減速實驗使銷售額減少了1%。必應和谷歌的一個聯合講演展示了性能對關鍵指標的顯著影響,包括去重搜索詞條、營收、點擊率、用戶滿意度和首點擊需時。?
05 減少惡意軟件
廣告是一項有利可圖的生意,用戶安裝的“免費軟件”經常包含插入廣告污染頁面的惡意軟件。圖1.6顯示了一個含有惡意軟件的必應搜索結果頁面。注意有多個廣告(用方框圈出)被插入這個頁面。
▲圖1.6 含惡意軟件的必應頁面顯示了多個廣告
這些不相關的低質量廣告不僅移除了必應自己的廣告,從而侵占了微軟的營收,也給用戶帶來了糟糕的體驗,用戶可能都沒有意識到為什么他們會看到這么多廣告。
微軟對380萬潛在受影響的用戶運行了一個對照實驗:修改文檔對象模型(Document Object Model, DOM)的基本路徑被覆寫,只允許少數可靠來源的修改。結果顯示必應所有的關鍵指標(包括人均會話數)都有所提高,這意味著用戶訪問的增加或用戶流失的減少。
除此之外,用戶的搜索也更加成功,能更快地點擊到有用的鏈接,必應的年營收也增加了數百萬美金。前文討論過的關鍵性能指標,比如頁面加載需時,在受影響頁面上也提升了幾百毫秒。
06 后端改動
后端算法的改動是在運用對照實驗時常常被忽視的領域,但它可能帶來重大影響。這里我們討論一個來自亞馬遜的實例。
回到2004年,當時亞馬遜已經有了基于兩個數據集的很好的推薦算法。其標志性功能本來是“買了X的用戶也買了Y”,但后來被延伸為“瀏覽了X的用戶也買了Y”和“瀏覽了X的用戶也瀏覽了Y”。
有人提出了一個方案,使用同樣的算法推薦“搜索了X的用戶也買了Y”。這個算法的支持者給出了含義不明的搜索的例子,比如“24”,多數人會聯想到Kiefer Sutherland主演的電視劇。
亞馬遜的原算法對“24”返回的結果比較糟糕(圖1.7左),有會24首意大利歌曲的CD、24月齡嬰兒穿的衣服、24英寸的毛巾桿等。而新的算法表現比較出色(圖1.7右),根據用戶搜索“24”后實際購買的項,返回了相關電視劇的DVD和書籍的搜索結果。
▲圖1.7 有BBS(Behavior-Based?Search,基于用戶行為的搜索)和沒有BBS時在亞馬遜上搜索“24”的結果
該算法的一個不足是返回的某些商品并沒有包含搜索關鍵詞。亞馬遜運行了一個對照實驗,即使有上述不足,這一改動也將亞馬遜的營收提高了3%——數百萬美金。
關于作者:羅恩·科哈維(Ron Kohavi)是愛彼迎的副總裁和技術院士,曾任微軟的技術研究員和公司副總裁。在加入微軟之前,他是亞馬遜的數據挖掘和個性化推薦總監。他擁有斯坦福大學計算機科學博士學位,論文被引用超過40 000次,其中有3篇位列計算機科學領域引用最多的1 000篇論文榜。
黛安·唐(Diane Tang)是谷歌院士,大規模數據分析和基礎設施、線上對照實驗及廣告系統方面的專家。她擁有哈佛大學的文學學士學位和斯坦福大學的碩士及博士學位,在移動網絡、信息可視化、實驗方法、數據基礎設施、數據挖掘和大數據方面擁有專利和出版物。
許亞(Ya Xu)是領英數據科學與實驗平臺負責人,曾撰寫了多篇關于實驗的論文,并經常在頂級會議和大學演講。她曾在微軟工作,擁有斯坦福大學的統計學博士學位。
本文摘編自《關鍵迭代:可信賴的線上對照實驗》,經出版方授權發布。
延伸閱讀《關鍵迭代:可信賴的線上對照實驗》
點擊上圖了解及購買
轉載請聯系微信:DoctorData
推薦語:愛彼迎、谷歌、領英A/B測試領軍人物撰寫,亞馬遜、谷歌、微軟和領英等公司互聯網產品成功的秘訣!谷歌院士JeffDean、臉書首任CTO、沈向洋等37位專家推薦。本書基于近些年實驗領域的研究成果和實踐經驗,對實驗的方法和應用做了很好的全景式描述,是一本兼顧系統性的方法論和基于實戰的經驗法則的書籍。
劃重點????
干貨直達????
手把手教你用Scrapy爬取知乎大V粉絲列表
終于有人把任務T、性能P和經驗E講明白了
什么是數字化轉型?來自IBM、微軟、阿里的精華觀點和實踐
終于有人把賭徒謬誤講明白了
更多精彩????
在公眾號對話框輸入以下關鍵詞
查看更多優質內容!
PPT?|?讀書?|?書單?|?硬核?|?干貨?|?講明白?|?神操作
大數據?|?云計算?|?數據庫?|?Python?|?爬蟲?|?可視化
AI?|?人工智能?|?機器學習?|?深度學習?|?NLP
5G?|?中臺?|?用戶畫像?|?1024?|?數學?|?算法?|?數字孿生
據統計,99%的大咖都關注了這個公眾號
????
總結
以上是生活随笔為你收集整理的谷歌、微软、亚马逊6个惊人的A/B测试实例的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ACM国际编程大赛夺冠,李现和他的队员们
- 下一篇: 崩溃!新浪程序员加班错失 77 万年会大