每日一课 | 详解数据分析最爱用的估算法
Python大本營每日一課
大家好,本期7日專欄內(nèi)容,營長將為大家分享新的內(nèi)容知識,“數(shù)據(jù)分析”,營長邀請的是宿永杰,某知名互聯(lián)網(wǎng)公司數(shù)據(jù)挖掘工程師,小伙伴們別忘記打卡哦。
數(shù)據(jù)分析中最愛用的估算法:費米估計
DAY02?
在科學(xué)研究中,有這樣一類估算問題,初次接觸會覺得已知條件太少,無法得出答案,但如果對分析對象進(jìn)行變通替換,問題就會迎刃而解,這就是費米問題。它可以用來對給定有限信息的問題做出清晰地驗證估算。
有這樣的一個故事:
1945 年世界上第一顆原子彈爆炸。費米在感覺到震波的同時,把舉過頭頂?shù)墓P記本碎紙屑松開,碎紙屑落在身后 2.5 米的距離,通過心算后,得出結(jié)論原子彈的能量相當(dāng)于 10000t TNT 的量,后來一些高科技儀器證明了費米的估算是正確的。
同樣的故事還有:
地球的周長是多少?
使用費米估計的解決方法是:已知紐約到洛杉磯 3000 英里,時差 3 小時,而一天即地球自轉(zhuǎn)一周的時間為 24 小時,即 3 小時的 8 倍。所以,地球的周長就是 3000 乘以 8,等于 24000 英里。與精確值的 24902.45 英里相比,誤差不到 4%。
芝加哥有多少鋼琴調(diào)音師?
使用費米估計的解決方法是:如果芝加哥居民 300 萬,平均每戶 4 人,擁有鋼琴的家庭占 1/3,則全市有 250000 架鋼琴。如果一架鋼琴每 5 年調(diào)音一次,則全市每年有 50000 架鋼琴要調(diào)音。如果一個調(diào)音師一天調(diào) 4 架鋼琴,一年工作 250 天,那么,芝加哥市大約有 50 個調(diào)音師。
通過上面的例子,可以看出,直接通過非縝密計算可以快速把一個給定有限信息的費米難題轉(zhuǎn)化成簡單問題,進(jìn)而快速得到解決,費米問題也因此受到人們的重視。
通過上面的案例,費米估計指的是解決少量信息的復(fù)雜估算問題,將復(fù)雜的問題拆解成常識性和已知的小問題,進(jìn)而進(jìn)行計算得到結(jié)果。所以解決問題的關(guān)鍵,主要有 2 個方面。
將未知的數(shù)逐步拆解成已知的部分,從而將一個未知結(jié)果的問題逐步變得清晰。問題拆解要按照一定的原則進(jìn)行,比如使用 MECE 原則,做到不重不漏,復(fù)雜問題層層拆解為簡單的子問題,從而解決問題。
在麥肯錫分析思維中,拆解問題的這種方法叫做議題樹(也叫邏輯樹或 MECE 原則),圖下所示:
在這里插入圖片描述
使用議題樹對理清復(fù)雜問題的結(jié)構(gòu)非常有幫助。
當(dāng)我們拆解到實際子問題的時候,要確保實際常識代表的數(shù)據(jù)是有生活經(jīng)驗的支撐,而非憑空捏造的。
所以,我們可以總結(jié)出費米估計的一個具體步驟:
費米問題的解決,不僅需要有很強(qiáng)的思維邏輯,同時還需要廣泛的常識性知識和準(zhǔn)確數(shù)據(jù)的支持,非常鍛煉一個人多方位的思考分析能力。在生活中實際用途也很多,比如預(yù)測行業(yè)趨勢、估算市場份額、評估活動結(jié)果等。
解決費米問題的方法很多,比較典型的是 Top-Down&Bottom-Up 法則。
在這里插入圖片描述
Top-Down&Bottom-Up 法則的中心思想是:
首先,從 2 個方面展開拆解問題。一是自上而下,也就是縱向從宏觀到微觀直推;二是自下而上,橫向從局部到全部反推。其次,對自上而下和自下而上的結(jié)果要進(jìn)行對比,如果兩者相減的絕對值在一個可接受的范圍,那結(jié)果基本可以相信。最后,需要對可能產(chǎn)生誤差的點進(jìn)行補(bǔ)充,保證結(jié)果更加精確。
通俗地來說,自上而下和自下而上就是估算結(jié)果的兩個邊界,大的為上邊界,小的為下邊界,而最終的結(jié)果就落在兩個邊界里面了。
假設(shè) f(x) 是我們求解的結(jié)果,F(x) 是下邊界值,G(x) 是上邊界值,則 f(x) 我們可以類似想到用夾逼準(zhǔn)則的方式,看成是 F(x) <= f(x) <= G(x),f(x) 就是可信的。
從數(shù)學(xué)的角度,我們再來看一個問題,古代三大幾何難題之一的化圓為方。如今計算圓的面積,我們直接套用公式即可輕易得到,可在過去,人們是卻花費了大量的時間和精力。
圓面積公式的常規(guī)推導(dǎo)思路是:先把一個圓平均分成若干份,然后將其拼成近似的長方形,最后根據(jù)長方形與圓的關(guān)系推導(dǎo)出圓的面積公式。當(dāng)時人們認(rèn)為既然正方形的面積容易求,只需要想辦法做出一個面積恰好等于圓面積的正方形。但是怎樣才能做出這樣的正方形又成為了另外一個難題。
這個起源于古希臘的幾何作圖題,在 2000 多年里,不知難倒了多少能人,直到 19 世紀(jì),人們才證明了這個幾何題,古代人的尺規(guī)作圖法是解決不了該問題的。
關(guān)于圓面積,古代數(shù)學(xué)家的貢獻(xiàn)如下:
我國古代的數(shù)學(xué)家祖沖之,從圓內(nèi)接正六邊形入手,讓邊數(shù)成倍增加,用圓內(nèi)接正多邊形的面積去逼近圓面積。古希臘的數(shù)學(xué)家,從圓內(nèi)接正多邊形和外切正多邊形同時入手,不斷增加它們的邊數(shù),從里外兩個方面去逼近圓面積。
古印度的數(shù)學(xué)家,采用類似切西瓜的辦法,把圓切成許多小瓣,再把這些小瓣對接成一個長方形,用長方形的面積去代替圓面積。16 世紀(jì)天文學(xué)家開普勒,把圓分割成許多小扇形,圓面積等于無窮多個小扇形面積的和,各段小弧相加就是圓的周長 2πR,最后得出我們今天計算圓面積的公式。
通過今天的計算可以得到:在一個圓里畫一個最大的正方形,正方形占圓面積的約 63.7%,在一個圓外畫一個最小的正方形,正方形面積是圓形面積的 157%。
看看,古人計算圓面積的思想和費米估計的思想是不是有異曲同工之妙呢?
在互聯(lián)網(wǎng)領(lǐng)域的工作面試中,如數(shù)據(jù)分析、產(chǎn)品、市場和咨詢等崗位,費米問題經(jīng)常被考到,題目往往能間接反映出候選人的綜合素質(zhì)。
下面,我們基于一個外賣業(yè)務(wù),做一個分析。在北京地區(qū),需要多少騎手才能滿足用戶的外賣需求呢?
1. 明確問題
對于一家外賣平臺,如果能提前估算出平臺所需要的騎手人數(shù),首先對人力資源方面會節(jié)省非常大的成本,其次可以根據(jù)商業(yè)模式提前計算業(yè)務(wù)數(shù)據(jù),比如定價、訂單分發(fā)、補(bǔ)貼、騎手支出等。給業(yè)務(wù)提供許多決策依據(jù)。
2. 問題拆解
北京地區(qū)每天有多少單外賣需求?1 個騎手 1 天能夠完成多少單任務(wù)?1 個騎手完成一單的花費時間是多少?
每單花費時間:前往商家時間 + 排隊等待時間 + 從商家到目標(biāo)地點時間 + 等待用戶時間。
3. 明確常識性數(shù)據(jù)
根據(jù) 2019 年公布的數(shù)據(jù),北京人口總數(shù) 2153.6 萬人,網(wǎng)民滲透率 90% 以上,對于外賣的目標(biāo)用戶主要鎖定在 20~30 歲易接受新鮮事物和消費能力強(qiáng)的年輕人,這部分人在人群中占比 45%。
4. 設(shè)計計算公式
所需的騎手總數(shù) = 每天訂單總數(shù)/每人每天可配送的訂單數(shù)
則可以確定以下數(shù)據(jù):
每天的總訂單數(shù) = 目標(biāo)用戶數(shù)/點單頻度 = 872.2/5 = 174.44 萬單
每人每天可配送的訂單數(shù) = 每天工作時間/完成一個訂單需要的時間
= 每天工作時間/(騎手到商家的時間+排隊等待時間+配送時間 + 用戶等待時間)
= 每天工作時間/(商家距離/騎手速度+排隊等待時間+目的地距離/騎手速度 + 用戶等待時間 )
= 10/(3/25 + 0.25 + 4/25 + 0)
= 18.9 單
所需的騎手總數(shù) = 每天訂單總數(shù)/每人每天可配送的訂單數(shù) = 92296 人
所以,最終得出的結(jié)論,北京應(yīng)該有大約 9 萬外賣騎手。
從上面的分析,我們也看到一個現(xiàn)實,每個騎手每天工作 10 小時,平均可以配送 19 單,新手的話可能更少,所以非常辛苦,這也能夠激發(fā)大家的同理心,所以平時點外賣對于超時的訂單要包容下。
總結(jié):費米問題是現(xiàn)實世界最好的估算法,能夠把限定信息、復(fù)雜困難的問題通過分解成常識性、可解決的小問題處理,所謂大事化小小事化了,這種思維方式非常實用,通過本篇,希望可以幫助你解決更多問題。
明日分享預(yù)告:數(shù)據(jù)分析中違背常理的悖論:辛普森悖論
本期專欄內(nèi)容均來自GitChat《數(shù)據(jù)分析面試剖析24講》專欄內(nèi)容,作者:宿永杰,某著名互聯(lián)網(wǎng)公司數(shù)據(jù)挖掘工程師,如需了解專欄詳情,可掃描下方二維碼。
總結(jié)
以上是生活随笔為你收集整理的每日一课 | 详解数据分析最爱用的估算法的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 谷粒商城 -->「P01-P44」
- 下一篇: 写论文要学python的哪些部分组成_一