Google大佬手把手教你从数据中挖掘价值:好产品是怎样炼成的
導(dǎo)讀:設(shè)計(jì)師最關(guān)注的可能就是提供良好的用戶體驗(yàn)。良好的業(yè)務(wù)指標(biāo)應(yīng)時(shí)時(shí)把用戶考慮在內(nèi)。當(dāng)希望借助數(shù)據(jù)更好地了解用戶時(shí),面臨的第一個(gè)問題是選擇哪些用戶進(jìn)行數(shù)據(jù)收集。
通過高效的實(shí)驗(yàn)方法收集用戶數(shù)據(jù),將在用戶行為多樣性、相似性、差異性及設(shè)計(jì)對(duì)用戶影響等方面獲得大量洞察。實(shí)際上,實(shí)驗(yàn)是一種與用戶對(duì)話的方法,能了解用戶的想法。收集實(shí)驗(yàn)數(shù)據(jù)有助于落實(shí)“用戶至上”的理念,并且在打造最佳體驗(yàn)的前提下進(jìn)行設(shè)計(jì)決策。
A/B測(cè)試本質(zhì)上是一種線上實(shí)驗(yàn)。它們的概念幾乎相同,都是設(shè)置變量,并與對(duì)照組衡量比對(duì)。但久而久之,A/B測(cè)試形成了自己的一套與現(xiàn)有業(yè)務(wù)用語更加一致的表述。接著,我們將把業(yè)務(wù)上下文中常見的概念與A/B測(cè)試專業(yè)術(shù)語進(jìn)行對(duì)應(yīng),并額外介紹其他實(shí)用且重要的概念。
作者:Rochelle King, Elizabeth Churchill, Caitlin Tan
如需轉(zhuǎn)載請(qǐng)聯(lián)系華章科技
?
本文將利用一個(gè)形象的比喻幫助闡述一些概念與場(chǎng)景。
我們邀請(qǐng)你扮演夏令營(yíng)的擁有者。每年,你將迎接大約200名兒童,并將與他們一起遠(yuǎn)足,開展戶外活動(dòng),一同進(jìn)餐。由于夏令營(yíng)的規(guī)模很大且活動(dòng)豐富,一些營(yíng)員的反饋也許不能代表整體營(yíng)員的感受。
夏令營(yíng)已運(yùn)營(yíng)了一些年頭,每年都有一些老營(yíng)員光顧,但這畢竟是在做生意,你希望能夠持續(xù)吸引更多新成員。夏令營(yíng)是一個(gè)循環(huán)往復(fù)的過程,這也解釋了你為何希望采用新方式來改進(jìn)夏令營(yíng)的體驗(yàn),進(jìn)而提升你的業(yè)務(wù)。
01 線上用戶抽樣
在沖向營(yíng)地的比喻中,我們探討了應(yīng)如何分配小屋中的營(yíng)員以達(dá)到測(cè)試的目標(biāo)。這個(gè)部分對(duì)A/B測(cè)試來說極其關(guān)鍵。樣本量很大時(shí),即使實(shí)驗(yàn)分配有細(xì)小差異,也會(huì)干擾對(duì)照條件,導(dǎo)致混亂不可靠的實(shí)驗(yàn)結(jié)果。這是為何進(jìn)行隨機(jī)分配的原因。隨機(jī)分配使得各組情況基本保持一致。
到目前為止,我們一直在談?wù)摬煌臈l件。比如,實(shí)驗(yàn)組與對(duì)照組。A/B測(cè)試中,這些條件通常被稱作測(cè)試單元。這與我們?cè)?jīng)介紹過的概念相同:測(cè)試單元指包含隨機(jī)分配樣本的各個(gè)體驗(yàn)組,基于不同的方法產(chǎn)生變化。
1. 用戶隊(duì)列與細(xì)分
當(dāng)希望借助數(shù)據(jù)更好地了解用戶時(shí),面臨的第一個(gè)問題是選擇哪些用戶進(jìn)行數(shù)據(jù)收集。研究合適的用戶群體非常重要,并將影響研究結(jié)果。
用戶群體多種多樣。將用戶通過兩種方式劃分成不同的隊(duì)列或進(jìn)行細(xì)分,有助于根據(jù)不同的用戶行為或動(dòng)機(jī)獲取不同的洞察。相比將用戶整體當(dāng)作一個(gè)大組,你能夠通過這種方式觀察到更多有價(jià)值的信息。
隊(duì)列是一組擁有共同經(jīng)歷的用戶群體。這種經(jīng)歷也許是基于時(shí)間的(同一時(shí)間注冊(cè)產(chǎn)品或服務(wù)的用戶)或由某些因素造成的(例如,畢業(yè)于2015年的學(xué)生)。
例如,許多人在1月開始使用你的產(chǎn)品及服務(wù),也許是因?yàn)樗麄冊(cè)谑フQ節(jié)購(gòu)買了手機(jī)。與其他時(shí)間加入的用戶相比,這些用戶在動(dòng)機(jī)或在其他方面有所差異。回到夏令營(yíng)的比喻,一組用戶可能代表2016年夏季第一批營(yíng)員。當(dāng)時(shí)開展的活動(dòng)類型以及營(yíng)銷宣傳構(gòu)建了夏令營(yíng)的基調(diào)與營(yíng)員的期待。
或者,你也可以基于人口統(tǒng)計(jì)因素等更加穩(wěn)定的特征(例如,性別、年齡、國(guó)籍)或行為特征(例如,新用戶、高級(jí)用戶)將用戶群體細(xì)分成不同群組。夏令營(yíng)的細(xì)分方式也許是基于年齡或居住城市,比如紐約。營(yíng)員的成長(zhǎng)地點(diǎn)與年齡都有可能影響他們所熱衷的營(yíng)地活動(dòng)類型。
現(xiàn)在,需要意識(shí)到,基于不同需求的不同分組對(duì)所提供的產(chǎn)品或體驗(yàn)可能產(chǎn)生不同的反應(yīng)。
比如,據(jù)Coursera前任首席執(zhí)行官John Ciancutti所述,在線課程學(xué)習(xí)網(wǎng)站Coursera在打造產(chǎn)品之初考慮了幾種不同的用戶群體:終身學(xué)習(xí)者、有經(jīng)驗(yàn)的專業(yè)人士、缺乏經(jīng)驗(yàn)的專業(yè)人士。不同用戶的需求不同,他們通過不同方式使用產(chǎn)品,或多或少為Coursera產(chǎn)品買單。
當(dāng)你思考A/B測(cè)試時(shí),選取哪種用戶隊(duì)列或細(xì)分群體進(jìn)行測(cè)試非常關(guān)鍵。集中對(duì)單一隊(duì)列用戶進(jìn)行抽樣有助于深入了解某特定用戶群體所面臨的特殊問題與需求。
比如,你決定關(guān)注其中一組用戶,即2015年第一批加入夏令營(yíng)的營(yíng)員,而從其他相似營(yíng)員中,也許能夠獲得更多有意義的洞察。比如,處于中學(xué)階段、擁有相似家庭背景的營(yíng)員。因?yàn)樵?015年你只接收中學(xué)生,主要是紐約附近的郊區(qū)居民。
但假如你只對(duì)此用戶隊(duì)列進(jìn)行研究,數(shù)據(jù)結(jié)果將無法適用于其他類型的潛在營(yíng)員,比如家庭營(yíng)員(假如改造成了家庭營(yíng))、高中營(yíng)員,或來自西海岸、其他國(guó)家的營(yíng)員,因?yàn)樗麄兊男畔]在初始用戶隊(duì)列中體現(xiàn)。
如你所知,A/B測(cè)試的樣本將決定哪些洞察可以進(jìn)行大范圍推廣,所以應(yīng)推廣那些從有代表性的用戶樣本中得到的洞察。
?
2. 人口統(tǒng)計(jì)信息
有時(shí),你希望基于更穩(wěn)定的特征對(duì)用戶進(jìn)行細(xì)分,比如人口統(tǒng)計(jì)特征。以下問題將幫助你確定需要了解的信息類型,以及如何收集此類信息:
- 可基于用戶收集哪些基礎(chǔ)統(tǒng)計(jì)信息(假設(shè)你已通過注冊(cè)流程中的問題了解了你的用戶,或想通過購(gòu)買用戶報(bào)告了解那些尚未成為你的用戶的目標(biāo)受眾)?
- 居住地點(diǎn)、年齡、性別、種族、身體是否健全,以及收入等信息會(huì)如何影響與新的體驗(yàn)相關(guān)的用戶需求?
- 用戶有哪些行為習(xí)慣?時(shí)間或地點(diǎn)信息會(huì)對(duì)這些行為產(chǎn)生哪些影響?
- 用戶的現(xiàn)有設(shè)備有哪些?
- 用戶的價(jià)值觀和產(chǎn)品期望是什么?
- 用戶對(duì)技術(shù)、設(shè)備和互聯(lián)網(wǎng)的接受度與經(jīng)驗(yàn)如何?對(duì)于使用新技術(shù)或體驗(yàn)的態(tài)度是什么?
當(dāng)你試圖了解更多用戶信息時(shí),并非所有這些問題都是相關(guān)的,但希望你可以了解到,收集的信息與數(shù)據(jù)將如何影響你的設(shè)計(jì)。隨著時(shí)間的推移和用戶群體的不斷發(fā)展與增長(zhǎng),你需要不斷適應(yīng)和調(diào)整已有經(jīng)驗(yàn)。正因如此,了解用戶、收集用戶數(shù)據(jù)將是一個(gè)長(zhǎng)期而持續(xù)的過程。
3. 新用戶與現(xiàn)有用戶
在大多數(shù)產(chǎn)品及設(shè)計(jì)決策中,你可能希望在現(xiàn)有用戶的基礎(chǔ)上,拓展新用戶。數(shù)據(jù)可以幫助你更多地了解現(xiàn)有用戶與未來潛在用戶。從新用戶還是現(xiàn)有用戶中進(jìn)行抽樣是A/B測(cè)試中一個(gè)至關(guān)重要的考慮因素。
現(xiàn)有用戶是擁有先前產(chǎn)品或服務(wù)使用經(jīng)驗(yàn)的群體。因?yàn)槿绱?#xff0c;他們才帶著先入為主的觀念想象你的產(chǎn)品或服務(wù)。這些已習(xí)得的行為會(huì)影響他們的思考方式、期待,以及他們?nèi)绾问褂媚愕漠a(chǎn)品或服務(wù)的新功能,這些都是針對(duì)現(xiàn)有用戶進(jìn)行新功能測(cè)試時(shí)需要考慮的重要因素。
相比現(xiàn)有用戶,新用戶沒有相關(guān)的產(chǎn)品使用經(jīng)驗(yàn)。當(dāng)你試圖拓展業(yè)務(wù),你更希望了解新用戶,因?yàn)樗麄儾粫?huì)受現(xiàn)有產(chǎn)品體驗(yàn)的影響。
為了生動(dòng)闡述新用戶與現(xiàn)有用戶之間的差異,假定你計(jì)劃在淡季調(diào)整營(yíng)地布局,將盥洗室調(diào)整到離餐廳更近的位置。之前的布局如圖2-5所示。
▲圖2-5:舊的布局圖。老營(yíng)員已經(jīng)養(yǎng)成步行至小木屋外側(cè)街道,再步行至盥洗室的習(xí)慣
位置調(diào)整后你會(huì)發(fā)現(xiàn),住在3號(hào)木屋的老營(yíng)員步行路程增加了,而新營(yíng)員選擇了線路更短的直線抵達(dá)盥洗室。一切都在情理之中,他們基于已有經(jīng)驗(yàn)選擇線路。返營(yíng)的老營(yíng)員需學(xué)習(xí)新的路線,而之前的行為習(xí)慣根深蒂固,他們總不由自主地選擇這條道路,無論什么情況。
相比之下,新營(yíng)員由于不受盥洗室最初位置與舊有習(xí)慣的干擾,能夠輕易找出抵達(dá)盥洗室的最近路線。圖2-6體現(xiàn)了這些行為差異。
?
▲圖2-6:新老營(yíng)員前往盥洗室的路線。新營(yíng)員不受影響,會(huì)選擇一條更接近直線的路線
這類已習(xí)得的行為習(xí)慣將引起A/B測(cè)試偏差,因此要注意,參與測(cè)試的用戶是哪種類型。
規(guī)劃實(shí)驗(yàn)時(shí)間時(shí)也要考慮“學(xué)習(xí)效應(yīng)”。谷歌的Jon Wiley分享了他的相關(guān)經(jīng)驗(yàn)。產(chǎn)品體驗(yàn)調(diào)整后,用戶需要一段時(shí)間克服已習(xí)得的經(jīng)驗(yàn)或行為帶來的干擾。他說:
當(dāng)我們進(jìn)行了一些視覺上或任何明顯的調(diào)整時(shí),因?yàn)閷W(xué)習(xí)效應(yīng)曲線,我們會(huì)采用更長(zhǎng)的實(shí)驗(yàn)周期。我們知道,當(dāng)用戶受到全新界面或設(shè)計(jì)帶來的沖擊時(shí),會(huì)產(chǎn)生難以預(yù)料的反應(yīng)及行為。
幾年前在設(shè)計(jì)改版時(shí),我們做了一個(gè)重大的視覺調(diào)整。A/B測(cè)試的結(jié)果一次次告訴我們,此類改變,需要很長(zhǎng)的學(xué)習(xí)時(shí)間。這意味著改動(dòng)后的最初一段時(shí)間,我們的數(shù)據(jù)指標(biāo)將非常混亂,之后會(huì)趨于穩(wěn)定。
這是因?yàn)?#xff0c;一個(gè)人需要花費(fèi)幾倍時(shí)間來適應(yīng)新的體驗(yàn),形成所期望的正常或更好的行為習(xí)慣。不同改動(dòng)對(duì)應(yīng)的適應(yīng)時(shí)間也不同。較小的調(diào)整,學(xué)習(xí)曲線對(duì)應(yīng)的時(shí)間更短。
我曾經(jīng)是2010年搜索引擎第一次重大視覺調(diào)整的首席設(shè)計(jì)師之一。作為設(shè)計(jì)師,我對(duì)自己的設(shè)計(jì)非常有信心。然而,指標(biāo)結(jié)果表明,新設(shè)計(jì)的接受度并不是很好。這讓我完全不能接受。于是我開始尋找其中的問題,與分析師和工程師緊密合作,深入研究這些數(shù)據(jù)。
因?yàn)閷W(xué)習(xí)效應(yīng),第一件事就是提出問題:“為什么我們不看看高頻用戶的數(shù)據(jù)呢?就是那些經(jīng)常使用谷歌搜索、大量輸入問題、進(jìn)行頻繁搜索的用戶。他們的數(shù)據(jù)結(jié)果如何?”
結(jié)果發(fā)現(xiàn),高頻用戶組的數(shù)據(jù)有很多差異。我們所擔(dān)心的幾個(gè)部分的數(shù)據(jù)相對(duì)好很多。這是我們得到的第一個(gè)線索——也許一切都與學(xué)習(xí)效應(yīng)有關(guān)。我們決定延長(zhǎng)實(shí)驗(yàn)時(shí)間。然后發(fā)現(xiàn),相當(dāng)長(zhǎng)一段時(shí)間后,低頻用戶和中頻用戶的行為開始逐漸與高頻用戶保持一致。
這是一個(gè)非常清晰的案例,Jon積極地定義探索設(shè)計(jì)方案的衡量過程及結(jié)果。當(dāng)設(shè)計(jì)師對(duì)數(shù)據(jù)結(jié)果感到好奇,這會(huì)促使他們更積極地推進(jìn)了解他們?cè)噲D影響的用戶潛在行為背后的真實(shí)原因。
除了習(xí)得的行為習(xí)慣效應(yīng),你也需要考慮現(xiàn)有用戶及潛在用戶之間人口統(tǒng)計(jì)特征方面的差異。比如,現(xiàn)有用戶相對(duì)潛在用戶可能存在統(tǒng)計(jì)偏差。
假如你的最初方案強(qiáng)烈吸引著技術(shù)群體及年輕受眾,那么很有可能,現(xiàn)有用戶樣本中年輕用戶及技術(shù)用戶的占比將超過總體的平均水平。那么你需要好好思考一下,假如你的原始用戶正是一年內(nèi)你所期望的群體類型,那么你會(huì)繼續(xù)以技術(shù)群體作為目標(biāo)用戶,還是希望得到更多主流用戶的青睞,減少技術(shù)用戶的份額?
與此類似,當(dāng)你考慮吸收新用戶時(shí),你認(rèn)為未來的用戶人口統(tǒng)計(jì)特征是什么樣的?正如之前提到過,你希望確保你所了解的用戶能夠代表未來的潛在用戶。
我們介紹了3個(gè)關(guān)于A/B測(cè)試用戶樣本的注意事項(xiàng):你希望在實(shí)驗(yàn)結(jié)果中得到哪些用戶隊(duì)列或細(xì)分用戶的信息,哪些人口統(tǒng)計(jì)的考量是互相關(guān)聯(lián)的,你對(duì)哪類用戶更感興趣,新用戶還是現(xiàn)有用戶?
你應(yīng)當(dāng)在每一次A/B測(cè)試前重新審視這三個(gè)問題。同時(shí)花些時(shí)間考慮前期的用戶抽樣以確保從正確的受眾中收集到合適的洞察,這是A/B測(cè)試有效進(jìn)行的關(guān)鍵。
?
02 指標(biāo):A/B測(cè)試的因變量
目前為止,我們介紹了一些A/B測(cè)試從用戶總體中抽樣的考量事項(xiàng),同時(shí)簡(jiǎn)要介紹了測(cè)試單元的概念。接下來,我們將回顧一下A/B測(cè)試中的因變量。因變量指觀察到的自變量所引起的結(jié)果。本節(jié)中,我們希望更為具體地了解A/B測(cè)試中的因變量通常有哪些。
一般來說,度量(measure)指觀察、捕捉與計(jì)算得到的信息。比如,度量可能是網(wǎng)站某個(gè)頁面的用戶訪問量,或成功完成某個(gè)流程的人數(shù)。
度量指標(biāo)(metric)指一種預(yù)設(shè)的評(píng)估基準(zhǔn),具有一定的商業(yè)價(jià)值。指標(biāo)在某種意義上是若干度量比對(duì)后的結(jié)果,通常類似于比率。使用指標(biāo)是因?yàn)樗軌蛱峁┝钊诵欧男畔?#xff0c;以了解業(yè)務(wù)或設(shè)計(jì)的健康狀況。采集率、留存率與活躍率都是指標(biāo)。
指標(biāo)是A/B測(cè)試中的因變量,即你所衡量的、用于判定測(cè)試結(jié)果的變量。比如,沖向營(yíng)地中,指標(biāo)是時(shí)間,尤其指從起始位置到營(yíng)地花費(fèi)的時(shí)間。
通常情況下,指標(biāo)幫助你度量與量化設(shè)計(jì)或產(chǎn)品改變產(chǎn)生的影響,因而衡量用戶行為變化導(dǎo)致的成功或失敗。主要通過企業(yè)關(guān)鍵指標(biāo)來觀察這些改變。
關(guān)鍵指標(biāo)(key metric)是業(yè)務(wù)的核心,是希望提升的核心指標(biāo),是設(shè)計(jì)是否成功的判定因素。它應(yīng)以驅(qū)動(dòng)業(yè)務(wù)成功的指標(biāo)為基準(zhǔn)——你可以認(rèn)為它是一種與成功相關(guān)的用戶行為的衡量方法。
通常來說,你希望增加一些對(duì)業(yè)務(wù)至關(guān)重要的指標(biāo)(比如用戶留存率或轉(zhuǎn)化率,即采取預(yù)期行動(dòng)的用戶占比),那么這些指標(biāo)便決定你的設(shè)計(jì)成功與否。然而在開展測(cè)試以及進(jìn)行結(jié)果分析時(shí),你應(yīng)當(dāng)考慮如何定義更多新的業(yè)務(wù)指標(biāo)。這些指標(biāo)將數(shù)據(jù)、設(shè)計(jì)原則與業(yè)務(wù)緊密結(jié)合在一起。
一個(gè)例子來自在線學(xué)習(xí)平臺(tái)Coursera。Coursera采用一種證書驅(qū)動(dòng)的商業(yè)模式,即從用戶完成課程后的證書(資質(zhì)證書)購(gòu)買費(fèi)用中賺錢。關(guān)鍵指標(biāo)之一是售賣的證書數(shù)量,或證書購(gòu)買帶來的收入。
你也許對(duì)此表示懷疑且理由充分:Coursera的課程通常以13周為一個(gè)周期,衡量設(shè)計(jì)改動(dòng)對(duì)指標(biāo)的影響將花費(fèi)很長(zhǎng)時(shí)間,這不現(xiàn)實(shí)。于是,John Ciancutti詳細(xì)闡述了Coursera確定其他指標(biāo)的過程,這些指標(biāo)可直接監(jiān)測(cè)用戶行為造成的影響:
Coursera的商業(yè)模式是驅(qū)動(dòng)用戶購(gòu)買證書,購(gòu)買的提前是完成課程,所以我們希望用戶進(jìn)行課程學(xué)習(xí),于是劃分了課程模塊,用戶完成的課程模塊數(shù)量與完成度存在一些關(guān)聯(lián)。在此之前,我們還發(fā)現(xiàn)了令人有所啟發(fā)的兩件事。
一是:他們是否通過了首次測(cè)驗(yàn)?這很重要。我們可以提前提供教材與課程內(nèi)容,以便他們更早測(cè)驗(yàn),因?yàn)閷W(xué)習(xí)者會(huì)得到更多投資。
二是:他們會(huì)分兩到三次完成課程。這是出于一種承諾。假如你計(jì)劃分兩天戒煙,你會(huì)想:“我不打算第三天仍然繼續(xù),雖然兩天完成很困難。但我不想全部的努力付之東流。”
通過這兩種方式,你可以將整體業(yè)務(wù)目標(biāo)拆分成幾個(gè)部分進(jìn)行測(cè)試,使團(tuán)隊(duì)更快地進(jìn)行迭代。
?
假如不能輕松確認(rèn)關(guān)鍵指標(biāo)造成的影響,則可選擇代理指標(biāo)。這類指標(biāo)能夠衡量用戶行為,與相關(guān)聯(lián)的關(guān)鍵指標(biāo)一樣,能夠影響用戶行為。
代理指標(biāo)比關(guān)鍵指標(biāo)或主導(dǎo)指標(biāo)更易衡量你已成功改變了用戶行為。為了選擇合適的代理指標(biāo),需尋找與關(guān)鍵指標(biāo)密切相關(guān)的指標(biāo),同時(shí)思考,哪些跡象能夠及早暗示用戶已逐漸產(chǎn)生了預(yù)期行為。
借助一些關(guān)鍵指標(biāo),可以立即得到答案,例如,如果衡量收入,每次課程結(jié)束時(shí),你就能確認(rèn)用戶是否有購(gòu)買行為。
由此可以發(fā)現(xiàn),A/B測(cè)試很大一部分的設(shè)計(jì)工作量集中在衡量指標(biāo)的選擇上,即追蹤哪些數(shù)據(jù)類型,如何進(jìn)行決策?
你所處的業(yè)務(wù)領(lǐng)域?qū)⒂绊憣?duì)業(yè)務(wù)整體健康程度與成功標(biāo)準(zhǔn)的衡量。業(yè)務(wù)健康狀況是一個(gè)極其復(fù)雜的概念,包含由大量不同類型的度量編織成的一條“業(yè)務(wù)底線”以定義業(yè)務(wù)的可行性。
類似指標(biāo)包括工程分析(服務(wù)交付與穩(wěn)健性指標(biāo))、業(yè)務(wù)分析指標(biāo)(關(guān)注于盈虧平衡及商業(yè)影響評(píng)估)及市場(chǎng)與業(yè)務(wù)競(jìng)爭(zhēng)力分析。
最終,無論你關(guān)注一組還是多組迥然不同的用戶,當(dāng)今市場(chǎng)的動(dòng)態(tài)質(zhì)量表明作為設(shè)計(jì)師,我們應(yīng)關(guān)注用戶的行為。雖然你的工作可能主要集中在用戶體驗(yàn)設(shè)計(jì)上,但它怎樣影響業(yè)務(wù)狀況的核心指標(biāo)值得你再三思考。你的工作與其他度量指標(biāo)的關(guān)聯(lián)取決于三件事:
- 所處業(yè)務(wù)類型。
- 收入模型。
- 現(xiàn)有業(yè)務(wù)的成熟度情況。
你的答案將決定你期望收集的數(shù)據(jù)類型。
這里不再深入探討不同因素如何影響所應(yīng)考慮的指標(biāo)等問題,但這是一個(gè)好的開始,詢問和了解你所在的企業(yè)使用了哪些指標(biāo)。時(shí)間或金錢相關(guān)的指標(biāo)通常與業(yè)務(wù)緊密相關(guān)。比如,你也許對(duì)用戶“參與度”感興趣。
活躍用戶(AU)是用戶參與度的一個(gè)基本度量指標(biāo),了解產(chǎn)品或服務(wù)日均或月度用戶使用量。業(yè)務(wù)報(bào)告通常包含日活躍用戶量(DAU)與月活躍用戶量(MAU)的匯總情況,假如業(yè)務(wù)復(fù)雜,這部分?jǐn)?shù)據(jù)可能會(huì)包含許多不同類別的信息。對(duì)于維基百科而言,日活躍用戶可能指當(dāng)日貢獻(xiàn)了一篇以上內(nèi)容的用戶。
據(jù)華爾街日?qǐng)?bào)所述,Twitter認(rèn)定活躍用戶的標(biāo)準(zhǔn)是每月登錄一次。對(duì)社交平臺(tái)而言,活躍用戶指30天內(nèi)至少登錄一次的用戶。對(duì)商業(yè)平臺(tái)而言,一周中至少兩天瀏覽平臺(tái)信息的活躍度即看作成功。對(duì)于新聞媒體,每天查看一次的活躍度就足夠。
作為設(shè)計(jì)師,最關(guān)注的可能就是提供良好的用戶體驗(yàn)。良好的業(yè)務(wù)指標(biāo)應(yīng)時(shí)時(shí)把用戶考慮在內(nèi)。比如,假如你的產(chǎn)品體驗(yàn)非常糟糕,你將不會(huì)期望用戶頻繁使用這種糟糕的產(chǎn)品。
我們支持你不斷質(zhì)疑那些與良好用戶體驗(yàn)相悖的指標(biāo)——停下來并評(píng)估是否需要更換指標(biāo),如果需要,考慮提供一種更能體現(xiàn)用戶體驗(yàn)與長(zhǎng)期激勵(lì)用戶流程的指標(biāo)。記住,一項(xiàng)成功的業(yè)務(wù)應(yīng)始終優(yōu)先考慮向用戶提供出色的體驗(yàn)。
?
03 探察分組差異
當(dāng)談到實(shí)驗(yàn)基礎(chǔ)時(shí),我們提到,假如要判斷改動(dòng)是否產(chǎn)生了效果,需先觀察因變量是否有差異。但如何得知這種差異是真正的關(guān)鍵?假如第2組超越其他組提前30秒抵達(dá)營(yíng)地,是否足以證明差異的效果,然后購(gòu)買更多指南針?這是一個(gè)統(tǒng)計(jì)顯著性問題。
我們希望站在設(shè)計(jì)角度思考這些統(tǒng)計(jì)概念應(yīng)承擔(dān)的角色,以幫助你了解并體會(huì)具有統(tǒng)計(jì)思維的成員在A/B測(cè)試中的諸多考慮。我們認(rèn)為,了解一些術(shù)語表述將有助于你參與顯著性與功效的相關(guān)討論,使你能夠在設(shè)計(jì)A/B測(cè)試以了解真實(shí)效果時(shí)提出問題。
統(tǒng)計(jì)顯著性是一種度量結(jié)果差異的隨機(jī)概率的方法。通過度量測(cè)試結(jié)果的顯著性,能夠判定觀察到的實(shí)驗(yàn)差異到底源于指標(biāo)的隨機(jī)變化,還是實(shí)驗(yàn)改動(dòng)產(chǎn)生的有意義的結(jié)果。因此需要判定彼此間因果關(guān)系的可能性或概率。
盡管通常在測(cè)試結(jié)束時(shí)計(jì)算統(tǒng)計(jì)顯著性,你依然需要考慮能否在A/B測(cè)試的設(shè)計(jì)流程中進(jìn)行度量。功效(power)指準(zhǔn)確檢測(cè)到實(shí)驗(yàn)組與對(duì)照組之間真實(shí)差異的統(tǒng)計(jì)顯著性結(jié)果的概率。你期望所設(shè)計(jì)的測(cè)試足以檢測(cè)到分組之間真實(shí)存在的差異。
不同于統(tǒng)計(jì)顯著性計(jì)算,功效計(jì)算在測(cè)試開展前進(jìn)行。兩者的差異在于:功效預(yù)測(cè)能否在實(shí)驗(yàn)中觀察到差異,而統(tǒng)計(jì)顯著性指出是否在實(shí)驗(yàn)樣本觀察中發(fā)現(xiàn)了差異。
你可以把這個(gè)想象成,在一個(gè)設(shè)計(jì)不佳的測(cè)試中,你戴著一副度數(shù)過低不足以矯正視力的鏡片:如果沒有足夠的提示,你甚至難以辨別貓與狗的差異,最終你所看到的一切都將是模糊不清且不可信的。
?
這兩個(gè)概念的細(xì)節(jié)與功效計(jì)算不再詳述。下面介紹一些用于測(cè)試需求的功效的影響因素。
1. 預(yù)設(shè)差異大小
除了期望了解不同分組是否存在差異外,另一個(gè)顯而易見的問題是,這些差異有多大?效應(yīng)值(effect size)指對(duì)照組與實(shí)驗(yàn)組之間的差異大小。統(tǒng)計(jì)顯著性指明是否存在差異,而效應(yīng)值量化差異的大小。
科學(xué)研究中,效應(yīng)大通常比效應(yīng)小更有意義。這對(duì)產(chǎn)品設(shè)計(jì)也同樣適用,由于設(shè)計(jì)改動(dòng)能對(duì)體驗(yàn)或關(guān)鍵指標(biāo)產(chǎn)生重大影響,因此堅(jiān)持實(shí)踐效應(yīng)值大的設(shè)計(jì)改動(dòng)能夠獲得更多收益。
在產(chǎn)品設(shè)計(jì)中,我們將期望觀察到的測(cè)試條件與控制條件之間的最小差異定義為最小檢測(cè)效應(yīng)(MDE),以此作為A/B測(cè)試的成功標(biāo)準(zhǔn)。MDE取決于一些業(yè)務(wù)因素,比如,至少多大的指標(biāo)差異才能引起收益增長(zhǎng)。
直觀來說,測(cè)試與改動(dòng)實(shí)踐應(yīng)通過某種方式獲得“回報(bào)”,比如通過具有顯著意義的指標(biāo)改動(dòng),這是業(yè)務(wù)健康發(fā)展與成功的關(guān)鍵,也是對(duì)用戶體驗(yàn)的巨大提升。你也可以基于之前的A/B測(cè)試定義MDE的大小,以往觀測(cè)到的效應(yīng)大小可以作為未來實(shí)驗(yàn)效應(yīng)值定義的一個(gè)參考。
測(cè)試的統(tǒng)計(jì)功效取決于最小檢測(cè)效應(yīng)。較大的差異更容易被捕捉到。比如,假定部分營(yíng)員可搭乘的士去往山頂,則不同分組抵達(dá)山頂?shù)臅r(shí)間將產(chǎn)生巨大差異。相較而言,MDE較小時(shí),則需要功效更強(qiáng)的實(shí)驗(yàn)以有效捕捉差異。
2. 抽取充足的樣本量
基于定義的最小檢測(cè)效應(yīng),你可以定義測(cè)試的功效大小。樣本量是影響測(cè)試功效的一項(xiàng)因素。
假設(shè)1名營(yíng)員說他們?cè)陬孪词液竺婵吹揭恢怀赭?#xff0c;你比較可能會(huì)認(rèn)為他們把松鼠或浣熊當(dāng)作了臭鼬。假如5名營(yíng)員都這樣說呢?你將更加傾向于相信這件事,為他們的安全隱隱擔(dān)憂。假如50名營(yíng)員都這樣說呢?
你將更加堅(jiān)信附近出現(xiàn)了臭鼬,以至于擔(dān)心營(yíng)員在往返盥洗室的路上再次偶遇它們,而安排營(yíng)員暫時(shí)使用教員盥洗室。
再一個(gè)例子。假設(shè)許多營(yíng)員病了,4個(gè)分組中每組僅有1名營(yíng)員參與徒步。也許你能觀察到分組間的差異,但對(duì)基于小樣本量進(jìn)行決策表示懷疑。
假如其中1名營(yíng)員速度更快,如何確定不是他的身高因素或更強(qiáng)的運(yùn)動(dòng)能力引起的?假如每組有40名營(yíng)員參與徒步,情況又如何?假設(shè)所有分組一同徒步,由于樣本量充足,假如第4組最快登頂,你將更有把握就此進(jìn)行決策。
分組差異的效果將趨同,40人趕超其他120名營(yíng)員的結(jié)果將會(huì)比1名營(yíng)員趕超3人更具說服力。
這種直覺背后的原則在于,樣本量越大,你對(duì)響應(yīng)的結(jié)果就越認(rèn)可。對(duì)結(jié)果而言,樣本量越大,效應(yīng)更明顯:假如樣本量較大,即使是時(shí)間或幸福感之類的細(xì)微差異,也具有很強(qiáng)的說服力。反之,假如僅有一名或若干營(yíng)員樣本,該結(jié)果將不具有說服力。
?
3. 顯著性水平
P值代表觀察到的隨機(jī)因素產(chǎn)生的差異概率。比如,當(dāng)我們觀察到P值=0.01,說明觀察到的,由隨機(jī)因素引起的而非分組有意義的差異引起的差異的概率為1%。P值多小才足夠,這取決于你的期望。
在許多社會(huì)實(shí)驗(yàn)領(lǐng)域,比如心理學(xué),任何P值<0.05(5%)都被看作具有統(tǒng)計(jì)顯著性,即觀察到的差異不是隨機(jī)因素引發(fā)的結(jié)果。換種說法,即觀察到的數(shù)據(jù)的效應(yīng)存在5%的概率是由數(shù)據(jù)中隨機(jī)產(chǎn)生的干擾。在其他領(lǐng)域,比如物理學(xué),僅當(dāng)P值<0.000 000 3時(shí)才被看作具有統(tǒng)計(jì)顯著性。
這個(gè)數(shù)值對(duì)于產(chǎn)品設(shè)計(jì),甚至最大的互聯(lián)網(wǎng)網(wǎng)站的設(shè)計(jì)調(diào)整而言,都有些不切實(shí)際。
A/B測(cè)試的一部分設(shè)計(jì)工作是提前確定測(cè)試結(jié)果所具有的置信程度。比如,能否接受測(cè)試結(jié)果5%的錯(cuò)誤概率?這是絕大多數(shù)互聯(lián)網(wǎng)團(tuán)隊(duì)的標(biāo)準(zhǔn)置信范圍。10%呢?20%呢?直至達(dá)到團(tuán)隊(duì)成員均可接受的程度為止。
放寬置信程度的主要原因是,風(fēng)險(xiǎn)越大,統(tǒng)計(jì)功效越小。功效越小說明樣本量越小,意味著實(shí)際上可能進(jìn)行了耗時(shí)更短、成本更小的測(cè)試,因?yàn)橛袝r(shí)你需要更快地從少量用戶中獲取數(shù)據(jù)。
如你所知,A/B測(cè)試的設(shè)計(jì)需權(quán)衡具體情況中的各種因素。但是,測(cè)試產(chǎn)生的統(tǒng)計(jì)數(shù)據(jù)僅是獲取用戶信息的其中一個(gè)重要環(huán)節(jié)。針對(duì)目標(biāo)提出充分的假設(shè)同樣重要。
關(guān)于作者:Rochelle King,Spotify產(chǎn)品設(shè)計(jì)創(chuàng)意全球副總裁,擅于融合運(yùn)用設(shè)計(jì)與數(shù)據(jù),并且曾擔(dān)任一些技術(shù)企業(yè)的負(fù)責(zé)人。Elizabeth Churchill博士,人機(jī)交互(HCI)領(lǐng)域?qū)<?#xff0c;曾在許多硅谷企業(yè)中主導(dǎo)以用戶為核心的研究,近專注于設(shè)計(jì)和開發(fā)者工具方面的研究。Caitlin Tan,Spotify的用戶研究員,畢業(yè)于麻省理工學(xué)院。本文摘編自《數(shù)據(jù)驅(qū)動(dòng)設(shè)計(jì):A/B測(cè)試提升用戶體驗(yàn)》,經(jīng)出版方授權(quán)發(fā)布。
延伸閱讀《數(shù)據(jù)驅(qū)動(dòng)設(shè)計(jì)》
推薦語:谷歌用戶體驗(yàn)總監(jiān)、Spotify設(shè)計(jì)與用戶體驗(yàn)全球副總裁聯(lián)袂撰寫,設(shè)計(jì)從業(yè)人員有效提升用戶體驗(yàn)必備參考。
總結(jié)
以上是生活随笔為你收集整理的Google大佬手把手教你从数据中挖掘价值:好产品是怎样炼成的的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据科学最常用流程CRISP-DM,终于
- 下一篇: 零基础入门Python I/O:从pri