【数据挖掘】如何做数据挖掘项目
筆者鼓勵致力于從事數(shù)據(jù)行業(yè)的去參加一些人工智能,機(jī)器學(xué)習(xí)的培訓(xùn),然后有人說:其實很多企業(yè)不喜歡培訓(xùn)出來的人,認(rèn)為培訓(xùn)不貼近實際,紙上談兵。
我倒不這么看,其實即使在企業(yè)內(nèi)干數(shù)據(jù)挖掘的人,很多也出不了活,這個不僅僅涉及業(yè)務(wù)和技術(shù),更是管理上的問題。
任正非說,華為最后能留下來的財富只有兩樣:一是管理框架、流程與組織支撐的管理體系;二是對人的管理和激勵機(jī)制,什么是流程化組織,簡單的說,就是基于流程來分配權(quán)力、資源以及責(zé)任的組織。
為什么這么說?
筆者的粗糙理解就是:好的做事的方法,靠人的口口相傳是沒有用的,寫成書也是沒人看的,只有把這些東西固化到企業(yè)的生產(chǎn)流程中去。
你要干活就必須遵循這個流程,才能讓這些方法成為企業(yè)的基因,無時不刻發(fā)揮出其應(yīng)有的價值,阻止突破底線事情的發(fā)生,流程讓新人做事一開始就站在巨人的肩膀上。
創(chuàng)新型的公司往往是傳統(tǒng)流程和機(jī)制的破壞者,但當(dāng)初公司在建立這些流程和機(jī)制的時候,其實符合當(dāng)時的大多利益,而且這些機(jī)制和流程確保了企業(yè)最基本的利益,所以后來要被顛覆,只是因為跟不上變化了而已,絕不是說機(jī)制和流程本身就是個問題。
可惜的是,對于數(shù)據(jù)挖掘這么復(fù)雜的、不確定性的工作,我們竟然很少去制定符合其特點的相關(guān)的流程和規(guī)范,有些數(shù)據(jù)挖掘美其名曰立項建設(shè),大多采用放飛的方式進(jìn)行,失敗是大多數(shù)的,投資浪費(fèi)是很多的,偶偶的亮點不能說明問題。
數(shù)據(jù)挖掘工作定義的六個階段,業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、模型構(gòu)建、模型評估、模型部署,被大家簡單的理解為純粹的技術(shù)步驟,從來沒想過這些階段跟管理有什么關(guān)系。
但正是管理的缺位,導(dǎo)致大量的數(shù)據(jù)挖掘工作事倍功半,新人來到一個團(tuán)隊,歷經(jīng)千辛萬苦作出的東西,往往一文不值,這到底是新人的問題還是團(tuán)隊的問題?
數(shù)據(jù)挖掘工作其實根本不可能靠閉關(guān)三日來給出什么驚喜,這是為實踐所證明的。
如果你是一支數(shù)據(jù)團(tuán)隊的管理者,改變不了整個企業(yè)的環(huán)境,比如數(shù)據(jù)驅(qū)動業(yè)務(wù)的思想,公司的政策等等,但應(yīng)該在你的職權(quán)范圍內(nèi),在有限的資源條件下,用更好的管理手段讓數(shù)據(jù)挖掘工作變得更有效。
最近,我跟團(tuán)隊正在思考擬定數(shù)據(jù)挖掘的管理流程和規(guī)范,共5個關(guān)鍵節(jié)點,希望新人做的數(shù)據(jù)挖掘工作,能夠按照規(guī)定的流程走,從一開始就能站在一個較高的起點上,并一直處在一個較為正確的方向上,直到成功或者快速的失敗。
?
一 需求分析
團(tuán)隊大了,工作多了,每個人的自由權(quán)就相對大了,這個時候團(tuán)隊就要明確一些做事的原則,什么樣的數(shù)據(jù)挖掘可以做,什么樣的數(shù)據(jù)挖掘不要做,這個不能靠拍腦袋,以下給出了4個原則,如果不滿足就要退回:
1、公司或部門重點工作(比如OKR)、領(lǐng)導(dǎo)安排的重點需求、日常運(yùn)營分析和一線反饋的重點需求,杜絕不計原則的去接收挖掘需求,數(shù)據(jù)挖掘不是買菜,要耗費(fèi)企業(yè)最珍貴的數(shù)據(jù)分析或挖掘資源,少而精是原則。
2、判斷是否已有相關(guān)模型或標(biāo)簽滿足需求,有則推薦現(xiàn)有模型和標(biāo)簽,如果有相關(guān)模型或標(biāo)簽但無法滿足現(xiàn)有需求,則需優(yōu)化原模型和標(biāo)簽,這其實也是數(shù)據(jù)治理的要求,很多挖掘其實是原來做的不好或者未有效推廣,不能重復(fù)造輪子。
3、雙方明確數(shù)據(jù)挖掘目標(biāo),初步評估技術(shù)可行性及大致所需工期,包括度量成功的指標(biāo)(精確率、召回率)、定義成功的基準(zhǔn)(小樣本驗證、AB測試等),業(yè)務(wù)側(cè)可能的主觀評估標(biāo)準(zhǔn)(覆蓋用戶數(shù)、納入業(yè)務(wù)生產(chǎn)流程)等等。
4、聯(lián)系業(yè)務(wù)方明確驗證方案,如果對方無法承諾驗證環(huán)境,比如政策和外呼資源等等,則要特別謹(jǐn)慎,根據(jù)經(jīng)驗,由于配合不到位導(dǎo)致的模型延期上線或者失敗的案例比比皆是,究其原因,還是因為業(yè)務(wù)方不夠重視或者級別不夠,調(diào)動不了相關(guān)資源去推進(jìn)這個事情。
除了以上原則,我們還制定了升級領(lǐng)導(dǎo)的原則,包括與業(yè)務(wù)方無法在目標(biāo)上達(dá)成一致,實施周期超過XX人天等等,這些都是為了制止盲目的開啟一個數(shù)據(jù)挖掘課題。
?
二 方案設(shè)計
這一過程看似簡單,有些人甚至只是腦子轉(zhuǎn)了下就倉促跳過,但很多建模失敗就栽在這個階段。
在方案設(shè)計階段要善于換位思考,承認(rèn)自己的認(rèn)知有限性,始終想著如何才能獲得最強(qiáng)的“業(yè)務(wù)大腦”和“數(shù)據(jù)大腦”來幫助你更好的理解業(yè)務(wù)和對應(yīng)的數(shù)據(jù),包括三個方面的工作:
1、明確所需數(shù)據(jù)及必要的特征:對于較為復(fù)雜且重點課題,一般都要組織相關(guān)利益方開展頭腦風(fēng)暴,集思廣益進(jìn)行特征的有效選擇,大量的數(shù)據(jù)挖掘工作失敗在于建模者僅憑自己有限的業(yè)務(wù)知識和有限的調(diào)研(包括有限的通識理解,特別是不諳世事的新人)就倉促選定變量,然后直接跳到自己以為擅長的數(shù)據(jù)建模階段在調(diào)參上耗盡心血,最后事倍功半,代價不可謂不大。
2、明確所需模型及技術(shù)實現(xiàn)步驟:一般跟著經(jīng)驗走就可以了,關(guān)于技術(shù)實現(xiàn)步驟相信每個企業(yè)都有自己的經(jīng)驗做法,比如我們就發(fā)現(xiàn)隨機(jī)森林在很多情況下好用,新人不清楚就問導(dǎo)師,這一步其實是比較簡單的。
3、進(jìn)行方案設(shè)計的匯報:要向利益相關(guān)者及你的領(lǐng)導(dǎo)匯報方案,領(lǐng)導(dǎo)可能技術(shù)上不如你,但人生經(jīng)驗比你足,業(yè)務(wù)視野比你開闊,擁有的資源比你多。
因此,要努力爭取到他的看法,領(lǐng)導(dǎo)支持你去做這個事情不代表他就支持你的設(shè)計,不要試圖跨過領(lǐng)導(dǎo)等有了建模結(jié)果后再向他匯報,因為一旦結(jié)果不好,領(lǐng)導(dǎo)的團(tuán)隊成本已經(jīng)花出去了,他不看好你的設(shè)計方案可以直接說NO,你要給他這個機(jī)會。
?
三 建模開發(fā)
這個階段大致可以分為三個子過程:
1、寬表開發(fā)及數(shù)據(jù)預(yù)處理:誰都知道這個步驟,大家都喜歡建立自己的寬表為自己的數(shù)據(jù)挖掘服務(wù),但如果你對企業(yè)的數(shù)據(jù)資產(chǎn)局理解不夠全面的化,就會在寬表處理上重復(fù)造輪子,效率很低。
因此,對于數(shù)據(jù)資產(chǎn)的全局掌握進(jìn)行定期的培訓(xùn)和考試是有必要的,很多人做了好長時間數(shù)據(jù)挖掘卻對于融合模型不清楚,這是管理上出現(xiàn)了問題。
2、模型基線開發(fā)及訓(xùn)練評估:參數(shù)調(diào)優(yōu)、交叉驗證、效果評估都是需要反復(fù)進(jìn)行的過程,但如果發(fā)現(xiàn)難以達(dá)到滿意的結(jié)果就不要一路走到死,召集相關(guān)人員進(jìn)行一次技術(shù)討論是非常有必要的。
4、模型和標(biāo)簽上線發(fā)布:模型和標(biāo)簽上線要遵循嚴(yán)格的標(biāo)準(zhǔn),包括是否滿足當(dāng)初設(shè)定的技術(shù)指標(biāo)要求,是否滿足數(shù)據(jù)治理要求,是否滿足運(yùn)維性能的要求等等。
?
四 試點驗證
1、效果驗證:跟功能開發(fā)不同,模型上線不代表就結(jié)束了,因為實際的生產(chǎn)環(huán)境跟你的訓(xùn)練環(huán)境會有很大的差別,你需要協(xié)調(diào)業(yè)務(wù)方按照當(dāng)初的承諾盡快的進(jìn)行效果驗證,這個時候你要承擔(dān)起連接者的角色,推進(jìn)各方盡快反饋生產(chǎn)的效果,如果無法達(dá)到當(dāng)初的設(shè)定目標(biāo),就要考慮重新優(yōu)化模型,試點推進(jìn)不利很多時候是業(yè)務(wù)方的原因,比如外呼排期延后等等,這個時候就要推動領(lǐng)導(dǎo)協(xié)調(diào)。
2、試點匯報:一旦達(dá)到要求,就要組織業(yè)務(wù)方和自己方的領(lǐng)導(dǎo)進(jìn)行匯報,明確模型是否具備全面推廣或納入生產(chǎn)的條件,這個涉及到業(yè)務(wù)方相關(guān)政策和資源的配合,不是簡單的模型的問題。組織這種會議其實是向各方領(lǐng)導(dǎo)表明,我已經(jīng)完成了任務(wù),但要讓這個模型產(chǎn)生價值,接下來你們得給我資源配合完成剩余的非功能性工作,好的模型最后不了了之往往是溝通出了問題,業(yè)務(wù)方的領(lǐng)導(dǎo)跟你的領(lǐng)導(dǎo)很多時候信息是極度不對稱的,你要干成事情就得多做協(xié)調(diào)的事情。
很多試點的結(jié)果并不理想,匯報的另一個目的就是及時止損,一方面是由于市場變化很快,總有意外的情況發(fā)生,另一方面是現(xiàn)有的模型的確達(dá)不到業(yè)務(wù)要求,你不能被一個看似無前途的事情拖死,你需要領(lǐng)導(dǎo)幫你做決策,繼續(xù)干還是放棄。
?
五 總結(jié)匯報
1、你要跟蹤模型的生產(chǎn)運(yùn)行效果,及時發(fā)布運(yùn)營報告,讓你的領(lǐng)導(dǎo)和業(yè)務(wù)的領(lǐng)導(dǎo)知道你干成了這個事情,很多時候,試點的效果很好,但一旦納入生產(chǎn)情況并不理想,因此要持續(xù)的跟蹤一段時間。
2、如果模型的效果保持穩(wěn)定,則可以將其移交給統(tǒng)一運(yùn)營團(tuán)隊(如果有的話),代表你交給公司的是一個可用的模型,從而進(jìn)入常態(tài)化運(yùn)營階段,這個時候自己才可以全身而退。后續(xù)如果運(yùn)營團(tuán)隊發(fā)現(xiàn)模型有問題,可以向你提交優(yōu)化需求,由此迭代。
數(shù)據(jù)挖掘最怕的就是只管殺不管埋,比如訓(xùn)練結(jié)果很好,但其實試點情況很差,試點情況還好,但生產(chǎn)情況很差,開始生產(chǎn)的時候還行,但持續(xù)一段時間就不行了。
模型師一定要記住,模型的上線絕對不是你工作的終點,而僅僅是起點,只有模型進(jìn)入穩(wěn)定的生產(chǎn)階段以后你才算完成了工作,大量的外包數(shù)據(jù)挖掘工作所以失敗,就是因為他們把數(shù)據(jù)挖掘工作當(dāng)成了簡單的功能開發(fā)。
你會發(fā)現(xiàn),筆者從需求分析講到總結(jié)匯報,都不在談技術(shù),而是在談管理,我在談進(jìn)入每個階段時要采用的質(zhì)量控制的手段,其實每個階段的周期也要控制,一般來講,如果某個階段超過了二個禮拜(可以根據(jù)企業(yè)實際調(diào)整),就要反思和對外暴露問題。
根據(jù)以上的內(nèi)容很容易就畫出數(shù)據(jù)挖掘的管理流程,可以貼在墻上成為軍規(guī)。當(dāng)然每個企業(yè)的情況不同,流程可能不一樣,但一定要沉淀出這種流程,它們保證了基本的做事的效率,不會由于人員的變動而導(dǎo)致效率的下降,這就是任總所說的流程化組織要干的事情吧。
這是我最近的一點思考,大家一起加油吧。
總結(jié)
以上是生活随笔為你收集整理的【数据挖掘】如何做数据挖掘项目的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 光纤通信 波长 光谱展宽 脉冲宽度
- 下一篇: JCJC错别字检测新功能:检测日期格式