数据分析中的两种偏差
總第171篇/張俊紅
今天給大家介紹一下數(shù)據(jù)分析中常見的兩種偏差:選擇性偏差和幸存者偏差。
1.選擇性偏差
選擇性偏差指的是在研究過程中因樣本選擇的非隨機(jī)性而導(dǎo)致得到的結(jié)論存在偏差,是由于人為主觀的選擇而導(dǎo)致的數(shù)據(jù)偏差。
我們來看一個關(guān)于選擇性偏差的例子,現(xiàn)在有一個研究機(jī)構(gòu)想要研究一個主題就是『醫(yī)院是否可以讓人變的更健康』。這個機(jī)構(gòu)隨機(jī)挑選了10萬名群眾,測量這10萬名群眾的健康水平,然后根據(jù)最近一年是否有去過醫(yī)院將10萬名群眾分為兩組,最后得到的統(tǒng)計(jì)結(jié)果是最近一年沒去過醫(yī)院的群體的健康水平要比去過醫(yī)院的群體健康水平要好,我們能說明醫(yī)院讓人變的更加不健康嗎?
這就是一個很典型的選擇性偏差導(dǎo)致的一個結(jié)果,因?yàn)樽罱荒隂]去過醫(yī)院的群體整體健康水平可能本來就要比去過的要好,所以測試出來的結(jié)果也是如此,并不能說明是醫(yī)院讓人的變得更加不健康。
我們在日常分析過程中要盡量避免這種偏差的發(fā)生,衡量有沒有選擇性偏差的一個很重要標(biāo)準(zhǔn)就是,被比較的兩組群體之間是否具有可比性。
2.幸存者偏差
幸存者偏差指的是只能看到經(jīng)過某種篩選而產(chǎn)生的結(jié)果,而沒有意識到篩選的過程,因此忽略了被篩選掉的關(guān)鍵信息。
我們來看一個比較久遠(yuǎn)的一個例子,二戰(zhàn)的時候美軍為了加強(qiáng)戰(zhàn)機(jī)的防護(hù)能力,所以就把參加過戰(zhàn)斗的飛機(jī)研究了一遍,發(fā)現(xiàn)飛機(jī)的彈孔大多集中在機(jī)翼和尾部,于是分析中心的工作人員認(rèn)為建議將這些受損最嚴(yán)重的地方加固。
統(tǒng)計(jì)學(xué)家亞伯拉罕·沃爾德(Abraham Wald)卻得出一個跟直覺相反的結(jié)論。他發(fā)現(xiàn)參與調(diào)查的都是在戰(zhàn)斗中幸存下來的飛機(jī),它們并未遭受致命的襲擊。相反,機(jī)艙和發(fā)動機(jī)等看似毫發(fā)無傷的地方反而比較危險(xiǎn),因?yàn)檫@些區(qū)域一旦被擊中,就會導(dǎo)致飛機(jī)失事墜毀。其實(shí)我們看到的飛機(jī)是被篩選過后的飛機(jī),還有一部分已經(jīng)墜毀的飛機(jī)我們是看不到的,這就是幸存者偏差。
再比如經(jīng)常會在脈脈、知乎這樣的平臺上看到,仿佛人人都是年薪百萬,只有自己是個戰(zhàn)斗力不足五的渣渣。這其實(shí)都是屬于幸存者偏差,那些年薪百萬的人會主動展示自己,還有一大堆不是年薪百萬的都被過濾掉了。
這就和我們平常工作中遇到的情況一樣,你經(jīng)常會遇到各種各樣的吐槽,比如抱怨你產(chǎn)品價格太高了,你如果直接把產(chǎn)品價格降低了能解決問題嗎?真正覺得你產(chǎn)品價格高的人可能壓根就不會去跟你抱怨。比如買千元機(jī)的人肯定不會跑去蘋果官網(wǎng)抱怨說,你們蘋果手機(jī)太貴了。
3.最后
我們在平常數(shù)據(jù)分析或者是工作中經(jīng)常會不自覺的陷入上面的這兩種問題里面,那怎么樣才能避免上面的兩種偏差呢?方法就是多問幾個為什么?上面的偏差也是我們通過數(shù)據(jù)分析得出來的,通過分析得出來結(jié)論以后,多去問幾個為什么?為什么會出現(xiàn)這種情況,為什么這些飛機(jī)飛回來了,為什么這些人會抱怨價格高。你如果能找到數(shù)據(jù)背后發(fā)生的原因,你也就不會犯上面的錯了。
上面的兩種偏差比較類似,但又不同,前者是因?yàn)槲覀內(nèi)藶檫x擇研究對象不準(zhǔn)確而導(dǎo)致的偏差,后者因?yàn)槲覀冎豢吹搅藙e人想要我們看到的部分而導(dǎo)致的偏差。兩者也有共同點(diǎn),就是都是因?yàn)槲覀儧]有看到數(shù)據(jù)的全貌而導(dǎo)致的偏差。
你還可以看:
你能分清比例和比率嗎?
你到底偏哪邊的?
總結(jié)
以上是生活随笔為你收集整理的数据分析中的两种偏差的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 保时捷管理咨询 CEO 文熠柏到访合肥,
- 下一篇: 全球最大汽车出口国稳了?今年中国已出口1