数据挖掘-理解业务和数据(二)
?目錄
1、思想問題
避免對業務的輕視
明白可以為和不可以為
數據挖掘不是萬能的
2、業務背景和目標
3、把握數據
總結
數據挖掘流程圖 :
前置準備:
1、思想問題
避免對業務的輕視
要做什么樣的人,要先去按照那樣的人去思考。
做數據挖掘,一定要避免的思想問題
我學了很多的算法,穿著程序員的衣服,背著程序員的電腦,我就是一個優秀的數據挖掘工程師了
數據挖掘人員需要真正理解業務場景與挖掘需求
數據挖掘的本質是一種方法
要去解決問題,一定要源于業務需求,服務業務需求
如果要做一個成功的數據挖掘項目:
- 深入學習業務,明白業務的關鍵點。
- 在項目的需求階段與業務方進行充分的溝通,在發現偏差時及時調整。
- 在制定OKR的時候與業務方來共同制定
明白可以為和不可以為
?一個業務需求來了:
- 明了業務的要求以及目標
- 明白數據挖掘要解決的點在哪里
- 技術在業務上絕不是萬能的
比如你在做一個OTA酒店消歧的項目,酒店業務中的一個痛點:
不同的供應商提供的酒店信息可能存在一些區別,需要消耗大量的人工去做比對決策
實際上會遇到的情況:
- 數據可能是殘缺的導致無法使用算法處理
- 不同供應商提供的同一家酒店名稱可能是不同語種的,無法使用同樣的模型來解決。不同的供應商提供的信息可能是不對等的,無法使用一套解決方案來完全解決所有問題
?
數據挖掘不是萬能的
數據不完美:
每一個公司都只是掌握了部分數據,有些甚至沒有多少數據,還需要去外面爬取數據來進行處理
數據的真實性、準確性、完整性具體到每一條數據時或者某一個需求時,是不完美的,甚至是匱乏的。
業務條件不完美:
數據挖掘項目通常都是跨團隊的協作項目。
例如上面的酒店業務,需要與業務進行了更深入的討論,最后確定目標是提升酒店運營人員的效率
項目降低了酒店運營60%的人力成本。
數據挖掘只能在有限的資源與條件下去提供最大化的解決方案
與業務方進行深入的溝通,同時對你所掌握的數據有充分的認識,對業務的難點和重點有明確的區分。
建立需求多方評估機制,讓業務專家與技術專家參與進來,評估需求的合理性以及你的數據情況 。
對需求講行坼解,以最大化在數據限制和業務限制前提下的項目效果 。
2、業務背景和目標
在進行數據挖掘之初就要去明確業務背景和業務目標
需求的產生必然是因為某種分析需求、某個問題或者某個業務目標的需求。
假設你現在是一個自媒體平臺,
自媒體作者發布文章,很多用戶會來看這些內容,從而產生互動行為
這些會刺激作者繼續創作,而作者持續發布好內容又會吸引更多的用戶來瀏覽
需求:要對發布內容的自媒體做一個貢獻度評級模型
貢獻度該如何去衡量?
對于一個作者,貢獻度體現在他的內容上
- CTR(點擊率)高的內容貢獻度高,還是有獨特觀點的內容貢獻度高?
- 能引發討論的內容貢獻度高,還是技術深度更深的內容貢獻度高?
- 發布內容的頻率高貢獻度高,還是發布的內容夠長貢獻度高??
你應該展開溝通,并成立專家小組來對目標進行評審:
在溝通的過程中了解到:業務背景是在打造品牌影響力的時候,發現很多用戶對我們的內容產生了質疑,業務方希望能夠對作者形成一種分級制度。
3、把握數據
作為一個數據挖掘工程師,需要對你要用到的數據了如指掌
收集、存儲、轉換數據都是十分重要的環節。
1.是否有數據
是否有這樣一個數據集來支持你做這樣一個模型,來完成這樣一個需求,來回答業務的問題
2.有多少數據
數量的不同會影響處理方式
3.是什么樣的數據
需要考慮的是這些維度是否可以支持完成業務需求,是否與所提出的問題有關系4.標簽
比如監督學習任務,每條數據都需要有結果的標注,這也是模型或者算法要學習的結果
總結
- 思想準備――確保自己已經具備了一個專業的數據挖掘工程師的思維模式
- 理解業務―—確保與業務需求方的充分溝通,對業務需求的充分理解
- 理解數據――確保對可以掌握的數據有全面的了解,知道哪些數據有用,哪些數據沒用
?
總結
以上是生活随笔為你收集整理的数据挖掘-理解业务和数据(二)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: axure rp 创建弹框_如何在Axu
- 下一篇: 界面设计语言_使用任何语言设计界面的提示