数据科学最常用流程CRISP-DM,终于有人讲明白了
導(dǎo)讀:什么是CRISP-DM?有什么用?本文帶你搞明白。
作者:約翰·凱萊赫(John D. Kelleher)、布倫丹·蒂爾尼(Brendan Tierney)
譯者:張世武、黃元?jiǎng)住?/p>
來(lái)源:大數(shù)據(jù)DT(ID:bigdatadt)
為了幫助人們勇攀數(shù)據(jù)科學(xué)金字塔,很多人或公司提出了他們認(rèn)為的最佳的數(shù)據(jù)科學(xué)處理流程。最常用的流程為“跨行業(yè)標(biāo)準(zhǔn)數(shù)據(jù)挖掘流程”(Cross Industry Standard Process for Data Mining ,CRISP-DM)。
事實(shí)上,多年來(lái),CRISP-DM一直穩(wěn)居各種行業(yè)調(diào)查第一名。CRISP-DM的主要優(yōu)勢(shì),也是它被廣泛使用的原因,其關(guān)鍵在于它被設(shè)計(jì)成獨(dú)立于任何軟件、供應(yīng)商或數(shù)據(jù)分析技術(shù)。
CRISP-DM最初是由一個(gè)由領(lǐng)先的數(shù)據(jù)科學(xué)供應(yīng)商、終端用戶、咨詢公司和研究人員組成的聯(lián)盟開發(fā)的。CRISP-DM項(xiàng)目最初由歐盟委員會(huì)(European Commission)在ESPRIT項(xiàng)目中提供了部分資助,該流程在1999年的一次研討會(huì)上被首次提出。從那時(shí)起,許多人嘗試更新這個(gè)流程,但是最初的版本目前仍然廣為使用。
多年來(lái),CRISP-DM有一個(gè)專門的網(wǎng)站,但近年來(lái)這個(gè)網(wǎng)站已經(jīng)廢棄,有時(shí)你可能會(huì)被IBM重定向到SPSS網(wǎng)站,IBM也是該項(xiàng)目的最初資助者之一。最初,聯(lián)盟發(fā)布了一個(gè)詳細(xì)的(76頁(yè))但可讀性很高的指南,可以在線免費(fèi)獲取該文檔(參考Chapman等1999),其中的幾頁(yè)對(duì)該流程的結(jié)構(gòu)和主要任務(wù)進(jìn)行了摘要。
CRISP-DM生命周期包括六個(gè)階段:
-
業(yè)務(wù)理解(business understanding)
-
數(shù)據(jù)理解(data understanding)
-
數(shù)據(jù)準(zhǔn)備(data preparation)
-
建模(modeling)
-
評(píng)估(evaluation)
-
部署(deployment)
如圖2-3所示。
▲圖2-3 CRISP-DM生命周期
數(shù)據(jù)是所有數(shù)據(jù)科學(xué)活動(dòng)的核心,這就是CRISP-DM圖以數(shù)據(jù)為中心的原因。階段之間的箭頭表示該流程的典型方向。這個(gè)過(guò)程是半結(jié)構(gòu)化的,這意味著數(shù)據(jù)科學(xué)家并不總是以線性方式順序經(jīng)過(guò)這六個(gè)階段。根據(jù)特定階段的結(jié)果,數(shù)據(jù)科學(xué)家可以回到前面的某個(gè)階段,重新執(zhí)行當(dāng)前階段的活動(dòng),或繼續(xù)進(jìn)入下一階段。
01?業(yè)務(wù)理解和數(shù)據(jù)理解階段
在前兩個(gè)階段,即業(yè)務(wù)理解和數(shù)據(jù)理解階段,數(shù)據(jù)科學(xué)家試圖通過(guò)了解業(yè)務(wù)需求和業(yè)務(wù)可用的數(shù)據(jù)來(lái)定義項(xiàng)目的目標(biāo)。在項(xiàng)目的早期階段,數(shù)據(jù)科學(xué)家通常會(huì)在關(guān)注業(yè)務(wù)和探索可用數(shù)據(jù)之間進(jìn)行迭代。此輪迭代通常涉及業(yè)務(wù)問(wèn)題的識(shí)別,然后探索是否有適當(dāng)?shù)臄?shù)據(jù)可用于開發(fā)針對(duì)該問(wèn)題的數(shù)據(jù)驅(qū)動(dòng)型的解決方案。
如果有,項(xiàng)目可以繼續(xù);如果沒(méi)有,數(shù)據(jù)科學(xué)家將不得不“越俎代庖”來(lái)確定待解決的問(wèn)題。在項(xiàng)目的這個(gè)階段,數(shù)據(jù)科學(xué)家將花費(fèi)大量時(shí)間與業(yè)務(wù)部門(例如,銷售、營(yíng)銷、運(yùn)營(yíng)部門)的同事面談以了解業(yè)務(wù)問(wèn)題,并與數(shù)據(jù)庫(kù)管理員溝通以了解有哪些數(shù)據(jù)可用。
02?數(shù)據(jù)準(zhǔn)備階段
一旦數(shù)據(jù)科學(xué)家明確定義了業(yè)務(wù)問(wèn)題并且為適當(dāng)?shù)臄?shù)據(jù)可用而感到高興,然后他就會(huì)進(jìn)入CRISP-DM的下一階段:數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)準(zhǔn)備階段的重點(diǎn)是創(chuàng)建可用于數(shù)據(jù)分析的數(shù)據(jù)集。
通常,創(chuàng)建此數(shù)據(jù)集涉及集成來(lái)自多個(gè)數(shù)據(jù)庫(kù)的數(shù)據(jù)源,當(dāng)組織機(jī)構(gòu)具有數(shù)據(jù)倉(cāng)庫(kù)時(shí),這種數(shù)據(jù)集成相對(duì)簡(jiǎn)單。創(chuàng)建數(shù)據(jù)集后,需要檢查數(shù)據(jù)質(zhì)量并修復(fù)有問(wèn)題的數(shù)據(jù)。典型的數(shù)據(jù)質(zhì)量問(wèn)題包括異常值和缺失值。檢查數(shù)據(jù)質(zhì)量非常重要,因?yàn)閿?shù)據(jù)中的錯(cuò)誤會(huì)嚴(yán)重影響數(shù)據(jù)分析算法的性能。
03?建模階段
CRISP-DM的下一階段是建模階段。這是使用自動(dòng)算法從數(shù)據(jù)中提取有用模式并對(duì)這些模式進(jìn)行編碼的階段。在計(jì)算機(jī)科學(xué)領(lǐng)域,機(jī)器學(xué)習(xí)專注于此類算法的設(shè)計(jì)。
在建模階段,數(shù)據(jù)科學(xué)家通常會(huì)在數(shù)據(jù)集上使用多種機(jī)器學(xué)習(xí)算法并訓(xùn)練出多個(gè)模型。此時(shí)通過(guò)在數(shù)據(jù)集上運(yùn)行機(jī)器學(xué)習(xí)算法來(lái)訓(xùn)練模型,以識(shí)別數(shù)據(jù)中的有用模式,對(duì)這些模式進(jìn)行編碼,其輸出結(jié)果即模型。
在某些情況下,機(jī)器學(xué)習(xí)算法訓(xùn)練出來(lái)的模型是模板化的,訓(xùn)練的目的是根據(jù)數(shù)據(jù)集擬合出最佳的模板參數(shù)(例如,基于數(shù)據(jù)集擬合線性回歸或神經(jīng)網(wǎng)絡(luò)模型)。在其他情況下,機(jī)器學(xué)習(xí)算法以分段方式構(gòu)建模型(例如,從樹的根節(jié)點(diǎn)開始一次一個(gè)節(jié)點(diǎn)遞歸地創(chuàng)建決策樹)。
在大多數(shù)數(shù)據(jù)科學(xué)項(xiàng)目中,機(jī)器學(xué)習(xí)算法訓(xùn)練出來(lái)的模型會(huì)被部署到線上以幫助組織機(jī)構(gòu)解決數(shù)據(jù)科學(xué)項(xiàng)目中的問(wèn)題。每個(gè)模型由不同類型的機(jī)器學(xué)習(xí)算法訓(xùn)練出來(lái),每個(gè)算法搜尋的模式也不盡相同。
在項(xiàng)目的這個(gè)階段,數(shù)據(jù)科學(xué)家通常不知道就手頭數(shù)據(jù)集而言哪些模式是最好的,因此,在這種情況下,需要嘗試使用多種不同的算法并檢驗(yàn)?zāi)姆N算法輸出了最精準(zhǔn)的模型。
在大多數(shù)數(shù)據(jù)科學(xué)項(xiàng)目中,初始模型的測(cè)試結(jié)果就能揭示數(shù)據(jù)中的問(wèn)題。當(dāng)數(shù)據(jù)科學(xué)家發(fā)現(xiàn)模型的性能低于預(yù)期或模型的性能達(dá)到預(yù)期但真實(shí)性存疑時(shí),數(shù)據(jù)錯(cuò)誤有時(shí)會(huì)暴露出來(lái)。或者通過(guò)檢查模型的結(jié)構(gòu),數(shù)據(jù)科學(xué)家可能會(huì)發(fā)現(xiàn)模型依賴的屬性集并不是他所期望的,因此他重新訪問(wèn)數(shù)據(jù)以檢查這些屬性是否被正確編碼。
因此,一個(gè)項(xiàng)目在建模跟數(shù)據(jù)準(zhǔn)備這兩個(gè)階段之間進(jìn)行多輪迭代是很常見的。例如,丹·斯坦伯格(Dan Steinberg)和他的團(tuán)隊(duì)在一個(gè)報(bào)告中聲稱,在某個(gè)數(shù)據(jù)科學(xué)項(xiàng)目中,他們?cè)?周的時(shí)間內(nèi)重建了10次數(shù)據(jù)集,而在第5周,他們經(jīng)歷了多次數(shù)據(jù)清理和準(zhǔn)備,并且發(fā)現(xiàn)了數(shù)據(jù)中的一個(gè)重大錯(cuò)誤。如果沒(méi)有識(shí)別并修復(fù)此錯(cuò)誤,那么該項(xiàng)目不會(huì)成功。
04?評(píng)估和部署階段
在CRISP-DM中,評(píng)估和部署這兩個(gè)最后的階段側(cè)重于研究模型如何適應(yīng)業(yè)務(wù)及其流程。在建模階段執(zhí)行的測(cè)試更關(guān)注模型在數(shù)據(jù)集上的精度。評(píng)估階段涉及在業(yè)務(wù)需求這個(gè)更廣泛的上下文中評(píng)估模型。
模型是否滿足業(yè)務(wù)目標(biāo)?如果模型不滿足,是否有任何業(yè)務(wù)方面的原因?在此過(guò)程中,數(shù)據(jù)科學(xué)家對(duì)項(xiàng)目活動(dòng)進(jìn)行常規(guī)的質(zhì)量保證(quality assurance)審查也是很有用的:是否遺漏了任何內(nèi)容?可以做得更好嗎?
基于對(duì)模型的一般性評(píng)估,在評(píng)估階段做出的主要決策是否應(yīng)該在業(yè)務(wù)中部署任何模型,或者需要另一次CRISP-DM的迭代來(lái)創(chuàng)建適當(dāng)?shù)哪P汀?/p>
假設(shè)評(píng)估過(guò)程有一個(gè)或多個(gè)模型通過(guò)驗(yàn)證,項(xiàng)目將進(jìn)入流程的最后階段:部署。部署階段涉及確認(rèn)如何將所選模型部署到業(yè)務(wù)環(huán)境中。這涉及規(guī)劃如何將模型集成到組織的技術(shù)基礎(chǔ)架構(gòu)和業(yè)務(wù)流程中。最好的模型是無(wú)縫適應(yīng)當(dāng)前技術(shù)棧和業(yè)務(wù)流程的模型。
適合當(dāng)前實(shí)踐的模型天然能獲得用戶的青睞,因?yàn)橛脩粲忻鞔_定義的問(wèn)題,這樣的模型可以幫助他們解決問(wèn)題。部署的另一個(gè)方面是制定計(jì)劃以定期檢查模型的性能。
CRISP-DM圖的外圈(圖2-3)突出顯示了整個(gè)過(guò)程是如何迭代的。數(shù)據(jù)科學(xué)項(xiàng)目的迭代屬性是這些項(xiàng)目的一個(gè)不可忽略的方面,而它在數(shù)據(jù)科學(xué)的討論中最容易被忽視。在項(xiàng)目開發(fā)并部署模型之后,應(yīng)定期檢查模型,以檢查模型是否仍符合業(yè)務(wù)需求并且尚未過(guò)時(shí)。
數(shù)據(jù)驅(qū)動(dòng)型模型可能過(guò)時(shí)的原因有很多種:
-
業(yè)務(wù)需求可能已經(jīng)改變;
-
模型模擬的過(guò)程中獲取的洞察力可能已經(jīng)失效(例如,客戶行為更改,垃圾郵件更改等);
-
或者模型使用的數(shù)據(jù)流可能已經(jīng)發(fā)生改變(例如,提供數(shù)據(jù)給模型的傳感器可能已經(jīng)更新,并且新版本的傳感器提供了略微不同的讀數(shù),導(dǎo)致模型不太準(zhǔn)確)。
模型審核的頻率取決于業(yè)務(wù)生態(tài)系統(tǒng)和模型使用數(shù)據(jù)的變化速度,需要持續(xù)監(jiān)控模型的效果以確定再次執(zhí)行CRISP-DM的最佳時(shí)間。圖2-3所示的CRISP-DM的外圈正好揭示了這個(gè)道理。例如,根據(jù)數(shù)據(jù)特性,業(yè)務(wù)問(wèn)題和領(lǐng)域,你可能每年、每季度、每月、每周甚至每天都要經(jīng)歷此迭代過(guò)程。
05 每個(gè)階段需要安排多少時(shí)間?
圖2-4描述了數(shù)據(jù)科學(xué)項(xiàng)目過(guò)程的不同階段以及每個(gè)階段涉及的主要任務(wù)。
▲圖2-4 CRISP-DM各階段與任務(wù)
許多缺乏經(jīng)驗(yàn)的數(shù)據(jù)科學(xué)家經(jīng)常犯的錯(cuò)誤是將他們的工作重點(diǎn)放在了CRISP-DM的建模階段,并急于完成其他階段。他們可能認(rèn)為項(xiàng)目中真正重要的可交付成果就是模型,因此數(shù)據(jù)科學(xué)家應(yīng)該將大部分時(shí)間用于構(gòu)建和調(diào)試模型。
然而,資深數(shù)據(jù)科學(xué)會(huì)花費(fèi)更多時(shí)間來(lái)確保項(xiàng)目具有明確定義的重點(diǎn)并且擁有正確的數(shù)據(jù)。要使數(shù)據(jù)科學(xué)項(xiàng)目取得成功,數(shù)據(jù)科學(xué)家需要清楚地了解手頭項(xiàng)目試圖解決的業(yè)務(wù)需求。因此,CRISP-DM的業(yè)務(wù)理解階段非常重要。
關(guān)于為項(xiàng)目獲取正確數(shù)據(jù)這件事情,2016年對(duì)數(shù)據(jù)科學(xué)家的調(diào)查發(fā)現(xiàn),79%的時(shí)間花在數(shù)據(jù)準(zhǔn)備上。項(xiàng)目主要任務(wù)的時(shí)間分布如下:
-
收集數(shù)據(jù)集,19%;
-
清理和組織數(shù)據(jù),60%;
-
構(gòu)建訓(xùn)練集,3%;
-
根據(jù)數(shù)據(jù)挖掘模式,9%;
-
算法調(diào)優(yōu),4%;
-
執(zhí)行其他任務(wù),5%。
79%的準(zhǔn)備數(shù)字來(lái)自于收集、清洗,以及組織數(shù)據(jù)。大約80%的項(xiàng)目時(shí)間用于收集和準(zhǔn)備數(shù)據(jù),這在多年的工業(yè)界調(diào)查中一直都是一致的結(jié)論。
有時(shí)這一發(fā)現(xiàn)令人驚訝,因?yàn)樗麄兿胂髷?shù)據(jù)科學(xué)家會(huì)花時(shí)間構(gòu)建復(fù)雜的模型以從數(shù)據(jù)中獲取洞察力。但簡(jiǎn)單的事實(shí)是,如果沒(méi)有應(yīng)用到正確的數(shù)據(jù)集上,無(wú)論數(shù)據(jù)分析技術(shù)有多好,它都不會(huì)挖掘出有用的模式。??
關(guān)于作者:約翰· D.凱萊赫,都柏林理工學(xué)院計(jì)算機(jī)科學(xué)學(xué)院的教授以及信息、通信和娛樂(lè)研究所的學(xué)術(shù)負(fù)責(zé)人。他的研究得到了ADAPT中心的支持,該中心由愛(ài)爾蘭科學(xué)基金會(huì)(Grant 13 / RC / 2106)資助,同時(shí)也接受歐洲區(qū)域發(fā)展基金的資助。
布倫丹·蒂爾尼,都柏林理工學(xué)院計(jì)算機(jī)科學(xué)學(xué)院的講師,同時(shí)也是Oracle ACE 主任,還著有多本基于Oracle技術(shù)的數(shù)據(jù)挖掘類著作。
本文摘編自《人人可懂的數(shù)據(jù)科學(xué)》,經(jīng)出版方授權(quán)發(fā)布。
延伸閱讀《人人可懂的數(shù)據(jù)科學(xué)》
點(diǎn)擊上圖了解及購(gòu)買
轉(zhuǎn)載請(qǐng)聯(lián)系微信:DoctorData
推薦語(yǔ):本書旨在闡述理解數(shù)據(jù)科學(xué)所需的基本思想和概念,幫助你理解什么是數(shù)據(jù)科學(xué),它是如何工作的,以及它能(和不能)做什么。本書從數(shù)據(jù)科學(xué)發(fā)展演化史,數(shù)據(jù)科學(xué)定義,數(shù)據(jù)、數(shù)據(jù)集,數(shù)據(jù)科學(xué)生態(tài)系統(tǒng),機(jī)器學(xué)習(xí),數(shù)據(jù)科學(xué)標(biāo)準(zhǔn)任務(wù),隱私與道德,發(fā)展趨勢(shì)等角度,對(duì)數(shù)據(jù)科學(xué)展開了精彩的闡述。
「大數(shù)據(jù)」內(nèi)容合伙人之「鑒書小分隊(duì)」上線啦!
最近,你都在讀什么書?有哪些心得體會(huì)想要跟大家分享?
數(shù)據(jù)叔最近搞了個(gè)大事——聯(lián)合優(yōu)質(zhì)圖書出版商機(jī)械工業(yè)出版社華章公司發(fā)起鑒書活動(dòng)。
簡(jiǎn)單說(shuō)就是:你可以免費(fèi)讀新書,你可以免費(fèi)讀新書的同時(shí),順手碼一篇讀書筆記就行。詳情請(qǐng)?jiān)诖髷?shù)據(jù)公眾號(hào)后臺(tái)對(duì)話框回復(fù)合伙人查看。
有話要說(shuō)????
Q:?你常用哪些數(shù)據(jù)科學(xué)的流程?
歡迎留言與大家分享
猜你想看????
-
5G時(shí)代,為什么主流大廠紛紛布局這項(xiàng)技術(shù)?
-
手把手教你用Flutter做炫酷動(dòng)畫
-
推給我的廣告都跟我最近看的內(nèi)容有關(guān)系,怎么做到的?
-
很火的深度學(xué)習(xí)框架PyTorch怎么用?手把手帶你安裝配置
更多精彩????
在公眾號(hào)對(duì)話框輸入以下關(guān)鍵詞
查看更多優(yōu)質(zhì)內(nèi)容!
PPT?|?報(bào)告?|?讀書?|?書單?|?干貨?
大數(shù)據(jù)?|?揭秘?|?Python?|?可視化
AI?|?人工智能?|?5G?|?中臺(tái)
機(jī)器學(xué)習(xí)?|?深度學(xué)習(xí)?|?神經(jīng)網(wǎng)絡(luò)
合伙人?|?1024?|?段子?|?數(shù)學(xué)
據(jù)統(tǒng)計(jì),99%的大咖都完成了這個(gè)神操作
????
覺(jué)得不錯(cuò),請(qǐng)把這篇文章分享給你的朋友
轉(zhuǎn)載 / 投稿請(qǐng)聯(lián)系:baiyu@hzbook.com
更多精彩,請(qǐng)?jiān)诤笈_(tái)點(diǎn)擊“歷史文章”查看
總結(jié)
以上是生活随笔為你收集整理的数据科学最常用流程CRISP-DM,终于有人讲明白了的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 手把手教你用ECharts画饼图和环形图
- 下一篇: Google大佬手把手教你从数据中挖掘价