从治疗癌症到预测犯罪,细数数据科学在各领域的神奇应用
導讀:成功的關鍵是獲取正確的數據并找到正確的屬性。
數據科學驅動決策在現代社會幾乎隨處可見。本文將介紹三個案例研究,用來描述數據科學的影響:消費型公司使用數據科學進行銷售和營銷;政府使用數據科學改善醫療、刑事判案和城市規劃;而已獲取專業體育特許經營權的商業機構則使用數據科學招募球員。
作者:約翰·凱萊赫(John D. Kelleher)、布倫丹·蒂爾尼(Brendan Tierney)
譯者:張世武、黃元勛
來源:大數據DT(ID:bigdatadt)
01 銷售和營銷中的數據科學
沃爾瑪可以通過銷售終端系統跟蹤沃爾瑪網站上的客戶行為以及有關沃爾瑪及其產品的社交媒體評論,獲取關于其客戶偏好的大型數據集。
10多年來,沃爾瑪一直在利用數據科學來優化商店的庫存水平,一個眾所周知的例子是,根據對幾周前颶風襲擊之前的銷售數據的分析,2004年,沃爾瑪在颶風Francis路徑上的商店重新進貨草莓派。
最近,沃爾瑪在分析社交媒體趨勢的基礎上推出新產品,分析信用卡活動,向客戶推薦產品,優化及個性化客戶在沃爾瑪網站上的在線體驗,利用數據科學推動其零售收入。沃爾瑪將在線銷售增長的10%至15%都歸功于數據科學優化。
在網絡世界中,提供類似追加銷售和交叉銷售功能的是“推薦系統”。如果讀者在Netflix上觀看過電影或者在Amazon上購買過物品,就會知道這些網站使用收集來的數據為接下來應該觀看或購買的內容提供建議。
這些推薦系統可以用不同的方式來引導你:一些引導你走向大片和暢銷書,另一些則引導你走向特定的迎合你品味偏好的商品。克里斯·安德森(Chris Anderson)的《長尾》(2008)一書認為,隨著生產和分銷成本的降低,市場從大量銷售熱門商品轉向集中高收益商品。
推動熱銷產品還是高收益產品銷售之間的權衡是推薦系統的一個基本設計決策,也影響對實現這些系統的數據科學算法的采用。
02 數據科學在政府中的應用
近年來,各國政府意識到數據科學的優勢。例如,2015年,美國政府任命D.J.帕蒂爾(D.J.Patil)博士為第一任首席數據科學家。美國政府領導的一些最大規模的數據科學計劃已經在健康領域開展。
數據科學是癌癥攻堅計劃(Cancer Moonshot)和精準醫療計劃(Precision Medicine Initiatives)的核心。精準醫療的理念是將人類基因組測序和數據科學結合起來,為單個患者設計藥物。該計劃的一部分是“全民計劃”(All of Us Program),其中計劃收集100多萬名志愿者的環境、生活方式和生物數據,用以創建世界上最大的精準醫學數據集。
數據科學還能用于城市組織方式的改革:它被用來跟蹤、分析和控制環境、能源和運輸系統,并為長期的城市規劃提供數據信息。
美國政府的“警察數據計劃”(Police Data Initiative)側重于利用數據科學幫助警察部門了解其管轄社區的需求。數據科學也被用來預測犯罪熱點和哪些人會成為慣犯。
然而,民權組織批評了數據科學在刑事司法中的一些應用。其中一個有趣的因素是,人們對個人隱私和數據科學的看法因領域而異。許多樂于將個人數據用于公共資助的醫療研究中的人在使用個人數據進行治安和刑事司法方面有著不同的看法。
03 數據科學在競技體育中的應用
由布拉德皮特主演的電影《點球成金》(Moneyball,Bennett Miller,2011),展示了數據科學在現代體育中越來越廣泛的應用。這部電影是根據同名小說(Lewis 2004)改編的,書中敘述了Oakland A's的棒球隊如何利用數據科學提高球員招募成功率的真實故事。
該團隊的管理層認為,與棒球傳統上強調的數據(如球員的安打率(batting average))相比,球員的上壘率(on-base percentage)和長打率(slugging percentage)統計數據更能揭示與進攻成功相關的信息。這一遠見卓識使Oakland A's能夠招募到被低估的球員,減少了球隊的薪資預算。
Oakland A's在數據科學方面的成功使棒球發生了革命性的變化,現在大多數棒球隊都將類似的數據驅動策略整合到了他們的招聘過程中。
Moneyball的故事是一個顯而易見的例子,表明了數據科學如何在競爭激烈的市場中為組織提供競爭優勢。然而,從純數據科學的角度來看,也許最重要的一點是,它強調了有時數據科學的主要價值是識別信息含量高的屬性。有一個共識,即數據科學的價值在于通過數據科學過程創建的模型。
然而,一旦我們知道了一個領域的重要屬性,就很容易創建數據驅動的模型,而成功的關鍵是獲取正確的數據并找到正確的屬性。
在《Freakonomics: A Rogue Economist Explores the Hidden Side of Everything》一書中,史蒂文·D·萊維特(Steven D. Levitt)和史蒂芬·杜伯納(Stephen Dubner)闡明了這一判斷對于解決各種問題有多么重要。正如他們所說,理解現代生活的關鍵是“知道測量什么以及如何測量”。
利用數據科學,我們可以發現數據集中的重要模式,這些模式可以揭示領域中的重要屬性。數據科學可以應用在多個領域,其原因是:如果可以獲取正確的數據,并且明確定義問題,那么數據科學就可以提供幫助。
04 為什么是現在
多個因素促成了當今數據科學的發展。正如前面提到的那樣,大數據的出現是由組織采集數據的相對容易所導致的。無論是通過銷售終端交易記錄、在線平臺上的點擊、社交媒體帖子、智能手機上的應用程序,還是無數其他渠道,公司現在都可以建立更加豐富的用戶畫像。
另一個因素是數據存儲在規模經濟時代的商品化,使得存儲數據的成本比以往任何時候都要低。計算機能力也有了巨大的提升。圖形處理器(GPU)最初是為實現計算機游戲的快速圖形渲染而開發的。GPU的特點是能夠實現快速矩陣乘法。然而,矩陣乘法不僅對圖形繪制有用,對機器學習也很有用。
近年來,GPU已被調整和優化以適用于機器學習,這有助于加快在數據處理和模型訓練方面的速度。用戶友好的數據科學工具也變得唾手可得,降低了進入數據科學的門檻。綜上所述,這些發展意味著采集、存儲和處理數據變得前所未有的簡單。
在過去的10年中,機器學習也取得了重大進展,特別是深度學習的出現,它已經徹底改變了計算機處理自然語言和圖像數據的方式。深度學習(deep learning)一詞描述了具有多個神經元層的一系列神經網絡模型。
神經網絡從20世紀40年代就已經存在了,但它們在擁有大型、復雜的數據集時才能發揮最大作用,并且需要大量的計算資源來進行訓練。因此,深度學習的出現與大數據和計算能力的爆發性增長有關。可以毫不夸張地說,深度學習對多個領域產生了非同一般的影響。
DeepMind的AlphaGo程序就是一個很好的例子,它說明了深度學習如何改變了一個研究領域。圍棋是起源于3000年前的中國棋類游戲。圍棋的規則比國際象棋簡單得多:玩家輪流把棋子放在棋盤上,圍捕對手的棋子或包圍空曠的區域。
然而,規則的簡單性和更大的棋盤意味著在圍棋中有著相對國際象棋來說更多可能的棋盤布局。事實上,比起宇宙中的原子數量而言,圍棋有更多可能的棋盤布局。對于計算機來說,這比國際象棋要困難得多,因為它有更大的搜索空間,并且難以評估這些可能的棋盤布局。
DeepMind團隊使用深度學習模型使AlphaGo能夠評估棋盤布局并選擇下一步要執行的操作。2016年3月,AlphaGo擊敗獲得18次圍棋世界冠軍的韓國棋手李世石,最終成為第一個擊敗職業圍棋選手的電腦程序。這場比賽在全世界有2億多人觀看。
在2009年,世界上最好的圍棋計算機程序的水平還在業余圍棋高手之下;而7年后,AlphaGo擊敗了世界冠軍。這一事實足以讓我們更好地理解深度學習對圍棋的影響。2016年,一篇描述AlphaGo背后的深度學習算法的文章發表在世界最著名的學術科學雜志《nature》上。
深度學習也對一系列高端下游技術產生了巨大影響。
-
Facebook現在使用深度學習來識別人臉和分析文本,以便根據個人的在線對話直接進行精準的廣告投放。
-
谷歌和百度都在圖像識別、字幕抽取和搜索,以及機器翻譯方面使用深度學習。
-
蘋果的虛擬助手Siri、亞馬遜的Alexa、微軟的Cortana和三星的Bixby也都使用基于深度學習的語音識別。
-
華為目前正在為中國市場開發一個虛擬助手,它也將采用基于深度學習的語音識別技術。
然而,盡管深度學習是一項重要的技術發展,但就數據科學的發展而言,最重要的一點是,人們對數據科學的能力和優點的認識不斷提高,而這些能力和優點是由那些備受矚目的成功案例凸顯出來的。
關于作者:約翰· D.凱萊赫,都柏林理工學院計算機科學學院的教授以及信息、通信和娛樂研究所的學術負責人。他的研究得到了ADAPT中心的支持,該中心由愛爾蘭科學基金會(Grant 13 / RC / 2106)資助,同時也接受歐洲區域發展基金的資助。
布倫丹·蒂爾尼,都柏林理工學院計算機科學學院的講師,同時也是Oracle ACE 主任,還著有多本基于Oracle技術的數據挖掘類著作。
本文摘編自《人人可懂的數據科學》,經出版方授權發布。
延伸閱讀《人人可懂的數據科學》
點擊上圖了解及購買
轉載請聯系微信:DoctorData
推薦語:本書旨在闡述理解數據科學所需的基本思想和概念,幫助你理解什么是數據科學,它是如何工作的,以及它能(和不能)做什么。本書從數據科學發展演化史,數據科學定義,數據、數據集,數據科學生態系統,機器學習,數據科學標準任務,隱私與道德,發展趨勢等角度,對數據科學展開了精彩的闡述。
有話要說????
Q:?你期待數據科學解決哪些難題?
歡迎留言與大家分享
猜你想看????
-
什么是氣泡圖?怎樣用Python繪制?怎么用?終于有人講明白了
-
50年后的地球什么樣?大數據、AI、量子計算的書單給你答案
-
數據中臺VS業務中臺、數據中臺VS數據倉庫,到底有什么區別?
-
企業數字化轉型與中臺建設全攻略:什么階段進行?有哪些方法?
更多精彩????
在公眾號對話框輸入以下關鍵詞
查看更多優質內容!
PPT?|?報告?|?讀書?|?書單?|?干貨?
大數據?|?揭秘?|?Python?|?可視化
AI?|?人工智能?|?5G?|?中臺
機器學習?|?深度學習?|?神經網絡
合伙人?|?1024?|?段子?|?數學
據統計,99%的大咖都完成了這個神操作
????
覺得不錯,請把這篇文章分享給你的朋友
轉載 / 投稿請聯系:baiyu@hzbook.com
更多精彩,請在后臺點擊“歷史文章”查看
點擊閱讀原文,了解更多
總結
以上是生活随笔為你收集整理的从治疗癌症到预测犯罪,细数数据科学在各领域的神奇应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 如何解决MySQL中的死锁问题?
- 下一篇: 50种不同编程语言的“Hello, Wo