27岁华裔小伙搞出美国新冠最准预测模型,一人干翻专业机构,彭博:Superstar...
金磊 曉查 發自 凹非寺?
量子位 報道 | 公眾號 QbitAI
年僅27歲的他,被彭博評價為“新冠病毒數據超級明星”。
為什么?
憑一己之力,僅用一周時間打造的新冠預測模型,準確度方面碾壓那些數十億美元、數十年經驗加持的專業機構。
他就是Youyang Gu,擁有 MIT 電氣工程和計算機科學碩士學位,以及數學學位。
但值得注意的是,他在醫學和流行病學等方面卻是一個小白。
他的模型,甚至被著名數據科學家、fast.ai創始人Jeremy Howard高度評價道:
唯一看起來合理的模型。
他是唯一一個真正查看數據,并且做得正確的人。
不僅如此,他的模型還被美國疾控中心采用。
到底是個怎樣的預測模型?
時間點要追溯到去年年初。
當時疫情已然在全球蔓延開來,于是公眾試圖用建模的方式,來預測接下來疫情會帶來的影響。
大多數的目光都將希望投向了2家專業機構打造的預測系統——倫敦帝國理工學院、總部位于西雅圖的健康指標與評估研究所(IHME)。
但2家機構給出的預測結果卻是天差地別:
倫敦帝國理工學院:到夏天,美國因新冠病毒而死亡的人數將達到200萬。
IHME:預計到8月,死亡人數將達到6萬。
(后來的事實證明,死亡人數是16萬。)
2家專業機構給出的預測數據,差距為何能夠如此之大?
這就讓當時年僅26歲的Youyang Gu引起了注意。
△?Youyang Gu
雖然他沒有任何醫學或流行病方面的經驗,但他堅信,數據預測在此時會派上大用場。
于是,大約在4月中旬,Youyang Gu便在家里僅花了一周時間,打造出了自己的預測器,以及一個可以顯示相關信息的網站。
△Youyang Gu創建的網站
但Gu在這個過程中所用到的方法,并不是說有多么的高級,相反,恰恰是比較簡單的那種。
他首先考慮的是新冠病毒檢測數、住院人數和其他因素之間的關系,但在這個過程中,Gu卻發現各個州和聯邦政府所提供的數據是存在不一致的現象。
此時,問題就來了——什么樣的數據才是靠譜的?
Gu認為,最靠譜的數據,似乎就是每天的死亡人數:
其他的模型用到了很多數據源,但我決定用過去的死亡人數,來預測未來的死亡人數。
至于這樣做的原因,Gu給出的解釋是“將它作為唯一的輸入,有助于在噪音中過濾信號”。
那么,預測結果如何?
可以說是相當的精準了。
在模型剛剛完成時,他預測在5月9日,美國將有8萬人死亡,當天的實際死亡人數為79926。
而同樣來自IHME的預測數據卻是“2020年一整年的死亡人數將不超過8萬”。
Gu還預測在5月18日,死亡人數將達到9萬;5月27日,死亡人數將達到10萬。
事實證明,他的這兩次預測再次“押中”!
除了精準數字的預測外,Gu基于許多州從封鎖狀態逐步轉變開放狀態,預測將出現第二波大規模感染和死亡。
而在Gu發出這樣的預測當天,特朗普所發表的言論卻是“IHME所預測的6萬死亡人數表明,疫情很快將結束”……
或許正是因為Gu的模型預測之精準,越來越多人開始關注他的作品。
在Twitter上,Gu不僅@了各路記者,還給流行病學專家發郵件,讓他們核實自己的數據。
去年4月底,華盛頓大學著名生物學家Carl Bergstrom便在Twitter上發布了Gu的模型。
不久之后,美國疾病控制和預防中心,也在其新冠預測網站上發布了Gu的數據。
不僅如此,隨著疫情的發展,身為中國移民的Gu,還參與了由美國專家團隊組織的定期會議,每個人都想更好的改善他的模型。
他的網站訪問量也呈現出爆炸式增長,每天都有數百萬人來看他的數據。
通常情況下,Gu的模型所預測的數據,基本在幾周后便會達到,與實際的死亡人數非常接近。
隨著類似的預測模型逐漸增多,阿默斯特馬薩諸塞大學生物統計學和流行病學系的副教授Nicholas Reich,便統計了50個這樣的模型:
Gu的模型一直位居前列。
但到了去年11月,Gu卻做出了令人意外的一個決定——結束他的預測任務。
對此,Reich這樣評價道:
Youyang Gu是一個非常謙卑的人,他看到其他人的模型也做得很好,便覺得自己的工作已經完成了。
而在Gu決定停止項目的前一個月,他預測11月1日死亡人數將達到231000人,而實際人數為230995人。
但IHME的Chris Murray認為:
Gu使用的機器學習方法,在短期預測方面的效果比較良好,但不太理解“大局中發生了什么”。
對此,Gu沒有針對模型的評價做出回應,相反,他這樣表態:
我非常感謝 Chris Murray 醫生和他的團隊所做的工作;沒有他們,我就不會有今天的成就。
在休息了一段時間之后,Gu重新投入到了這份事業當中。
這一次,他要做的預測是“美國有多少人感染了新冠病毒”、“疫苗推出的速度有多快”、“美國可能何時(如果可能的話)達到群體免疫”等。
他的預測表明,到今年6月,大約61%的美國人口應該獲得某種形式的免疫力——無論是疫苗還是因過去的感染。
……
Gu一直希望能夠找到一份能對社會產生巨大影響的工作,同時避免政治、偏見以及大型機構有時會帶來的負擔。他認為:
在這個領域,有很多缺點可以通過我這種背景的人來改善。
誰是Youyang Gu?
Youyang Gu出身于美國華裔移民家庭,在伊利諾伊州和加州長大。
Gu從小喜歡數學和科學,直到高中畢業時,才真正接觸計算機科學。而他能夠進入這個行業得益于他的父親,因為他的父親是一名計算機從業者。
△正在做化學實驗的Gu Youyang(圖片來自2010年克拉克獎學金項目)
Gu本科和碩士都在MIT就讀,在那里他獲得了計算機科學與數學雙學士學位,以及計算機科學的碩士學位。
畢業后他繼續在MIT著名的CSAIL實驗室的NLP組進行了一年的研究,同年在EMNLP 2016上發表了論文。
這也是他第一次接觸大數據,并由此建立統計模型對數據進行預測。
不過他沒有因此繼續學術研究,而是進入產業界。從MIT離開后,他加入了金融行業,為高頻交易系統編寫算法。
在那里,他的數據建模能力得到了進一步磨練,因為在金融交易中,數據必須非常定量并盡可能地準確。
之后,他又進入了體育界,繼續進行大數據方面的研究。這也為他提供了豐富的跨學科經驗,使他能夠成功應對新地領域,懂得如何更加準確地建模。
用他自己的話來說,他的專長是使用機器學習來理解數據,將信號與噪聲分離并做出準確的預測。
在建立新冠死亡模型時,他起初考慮了確診數量、住院數量和其他因素之間的關系。然后他發現各州和聯邦政府報告的數據不一致,最可靠的數字是每天的死亡人數。
Gu認為,如果輸入數據質量很低,那么數據越多,輸出的性能就越差。
在一周的時間里,他就根據死亡數據便建立了一個簡單模型,并將預測網站上線。
從去年4月以來,Gu已經自愿在這個項目中投入了幾千個小時,而且是無償的。
在接受醫學網站Medscape主編Eric Topol采訪時,Gu表示自己現在全職投入到新冠預測網站上,沒有兼職、沒有收入,他靠著過去的積蓄生活。
△?Gu Youyang接受Medscape主編Eric Topol視頻采訪
然而就是這樣一個公益的項目卻遭到了一些Twitter網友非議,但是他還是堅持了下來。
從12月開始,covid19-projections.com接受網友的捐贈幫助,現在已經完成了5萬美元的籌款目標。
除了感染人數外,Gu的新冠網站又有了一個新的功能。從去年12月起,covid19-projections.com開始跟蹤和模擬疫苗接種情況以及群體免疫的途徑。
這個月,Gu又將“群體免疫”改成了“恢復常態”,因為他的模型預測表明,美國不太可能在2021年達到理論上的群體免疫。
未來的路怎么走?疫情結束后,Gu的職業規劃如何?
他說現在還為時過早,雖然他現在的工作是預測疫情發展,但是他很難預測自己3個月或1年后要做什么。
因為這項工作,世界各地的高校和企業已經向他拋出了橄欖枝。
參考鏈接:
https://www.bloomberg.com/news/articles/2021-02-19/covid-pandemic-how-youyang-gu-used-ai-and-data-to-make-most-accurate-prediction
https://youyanggu.com/
https://twitter.com/youyanggu
https://covid19-projections.com/
https://www.medscape.com/viewarticle/944778
—?完?—
機器學習系列教程
從隨機森林開始,一步步理解決策樹、隨機森林、ROC/AUC、數據集、交叉驗證的概念和實踐。
文字能說清的用文字、圖片能展示的用、描述不清的用公式、公式還不清楚的寫個簡單代碼,一步步理清各個環節和概念。
再到成熟代碼應用、模型調參、模型比較、模型評估,學習整個機器學習需要用到的知識和技能。
機器學習算法 - 隨機森林之決策樹初探(1)
機器學習算法-隨機森林之決策樹R 代碼從頭暴力實現(2)
機器學習算法-隨機森林之決策樹R 代碼從頭暴力實現(3)
機器學習算法-隨機森林之理論概述
隨機森林拖了這么久,終于到實戰了。先分享很多套用于機器學習的多種癌癥表達數據集 https://file.biolab.si/biolab/supp/bi-cancer/projections/。
機器學習算法-隨機森林初探(1)
機器學習 模型評估指標 - ROC曲線和AUC值
機器學習 - 訓練集、驗證集、測試集
機器學習 - 隨機森林手動10 折交叉驗證
一個函數統一238個機器學習R包,這也太贊了吧
基于Caret和RandomForest包進行隨機森林分析的一般步驟 (1)
Caret模型訓練和調參更多參數解讀(2)
機器學習相關書籍分享
基于Caret進行隨機森林隨機調參的4種方式
送你一個在線機器學習網站,真香!
UCI機器學習數據集
機器學習第17篇 - 特征變量篩選(1)
機器學習第18篇 - 基于隨機森林的Boruta特征變量篩選(2)
機器學習系列補充:數據集準備和更正YSX包
機器學習第20篇 - 基于Boruta選擇的特征變量構建隨機森林
往期精品(點擊圖片直達文字對應教程)
機器學習
后臺回復“生信寶典福利第一波”或點擊閱讀原文獲取教程合集
?
(請備注姓名-學校/企業-職務等)
總結
以上是生活随笔為你收集整理的27岁华裔小伙搞出美国新冠最准预测模型,一人干翻专业机构,彭博:Superstar...的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 文章用图的修改和排版
- 下一篇: R包ggseqlogo |绘制序列分析图