get这款工具,不会机器学习也能轻松搞定深度分析
機(jī)器學(xué)習(xí)是一門多學(xué)科交叉專業(yè),涵蓋概率論知識、統(tǒng)計學(xué)知識、近似理論知識和復(fù)雜算法知識。機(jī)器學(xué)習(xí)算法是一類從數(shù)據(jù)中自動分析獲得規(guī)律,并利用規(guī)律對未知數(shù)據(jù)進(jìn)行預(yù)測的算法。通過計算機(jī)對數(shù)據(jù)的處理和對算法的運(yùn)用,實現(xiàn)對業(yè)務(wù)場景的深度分析,幫助人們更好的做決策。永洪深度分析模塊是將機(jī)器學(xué)習(xí)算法封裝成節(jié)點,用戶通過拖拽的方式從而便捷的應(yīng)用機(jī)器學(xué)習(xí)算法。
如何使用深度分析模塊?首先需要安裝永洪Desktop,里面會帶有深度分析功能,目前可以免費(fèi)試用3個月。其次根據(jù)需要安裝R服務(wù)環(huán)境或Python服務(wù)環(huán)境,也可以兩個都安裝。如果不會安裝可以查看在線幫助或到官網(wǎng)社區(qū)中的產(chǎn)品問答中看相關(guān)說明。再次,安裝好后,打開Desktop,選擇【管理系統(tǒng)】-【系統(tǒng)設(shè)置】-【R計算配置/Python計算配置】,如下圖1所示。填寫服務(wù)器地址和端口號,點擊測試連接,如果連接正確,右上角會彈出測試成功。最后點擊保存連接,至此,深度分析功能就可以使用了。
圖1
想要對業(yè)務(wù)進(jìn)行深度分析,就需要對機(jī)器學(xué)習(xí)的流程有一定的了解,通常的流程共有8步,如下圖2。在永洪的產(chǎn)品中提供了幾個常用的深度分析的場景,大家可以打開看看,也可以復(fù)用使用。
圖2
第一步,問題分析,就是要確定對哪個問題進(jìn)行分析。例如,對于銀行業(yè)企業(yè),通常會進(jìn)行信用卡反欺詐分析、營銷策略分析等。對于零售行業(yè),通常會進(jìn)行銷售預(yù)測、用戶畫像分析等。對于政府,可以進(jìn)行交通預(yù)測、人流量預(yù)測等。確定問題后就要判斷問題是有監(jiān)督問題還是無監(jiān)督問題,以此來確定采用哪種技術(shù)方案。有監(jiān)督學(xué)習(xí)是指輸入數(shù)據(jù)中有標(biāo)簽,以概率函數(shù)、代數(shù)函數(shù)或人工神經(jīng)網(wǎng)絡(luò)為基函數(shù)模型,采用迭代計算方法,學(xué)習(xí)結(jié)果為函數(shù)。無監(jiān)督學(xué)習(xí)是指輸入數(shù)據(jù)中無標(biāo)簽,采用聚類方法,學(xué)習(xí)結(jié)果為類別。典型的無監(jiān)督學(xué)習(xí)算法有降維、聚類等。如何判斷有監(jiān)督還是無監(jiān)督,簡單說就是主要看數(shù)據(jù)是否有打標(biāo)簽,如果有就是有監(jiān)督,如果沒有就是無監(jiān)督。
第二步,數(shù)據(jù)獲取,就是要把數(shù)據(jù)導(dǎo)入到產(chǎn)品中。在永洪產(chǎn)品中需要選擇添加數(shù)據(jù)源模塊,目前支持30多種數(shù)據(jù)源,如Excel、Mysql、Oracle等。設(shè)置好數(shù)據(jù)源后選擇創(chuàng)建數(shù)據(jù)集,常用的為SQL數(shù)據(jù)集和Excel數(shù)據(jù)集,選擇完數(shù)據(jù)后點擊刷新數(shù)據(jù),在右側(cè)面板中可以看到獲取的數(shù)據(jù)。
第三步,數(shù)據(jù)預(yù)處理,就是把導(dǎo)入到數(shù)據(jù)集的數(shù)據(jù)進(jìn)行處理。如去重、拆分列、去空格、采樣、分區(qū)等。這項工作用戶可以在創(chuàng)建數(shù)據(jù)集模塊進(jìn)行設(shè)置,如下圖3。
圖3
此外,在深度分析模塊也提供了一些數(shù)據(jù)處理的節(jié)點供用戶使用,從這一步開始到第七步,我們就真正的進(jìn)入到深度分析的領(lǐng)域了。下面,讓我們來看看永洪的深度分析功能是如何使用的?基本流程如下圖4。
圖4
打開深度分析功能,可以看到,產(chǎn)品提供了一些案例可以幫助用戶快速的學(xué)習(xí)和了解深度分析。選擇新增實驗?zāi)P?#xff0c;打開一個空白的實驗創(chuàng)建面板,如下圖5。
圖5
左側(cè)為操作節(jié)點,中間為畫布,右側(cè)為節(jié)點配置、實驗探索等。操作中各個文件夾代表不同的功能節(jié)點。其中,數(shù)據(jù)里是用戶上傳后數(shù)據(jù)集保存的位置。數(shù)據(jù)變換里是可以對數(shù)據(jù)進(jìn)行操作處理的節(jié)點。數(shù)據(jù)探索里是查看數(shù)據(jù)是否有缺失值、數(shù)據(jù)類型等。算法里目前支持(邏輯回歸、決策樹、K-Means、關(guān)聯(lián)規(guī)則、時序分析)算法。驗證與評估是評估模型預(yù)測結(jié)果(R)。腳本可以支持R、Python編程自定義開發(fā)。視圖可以將實驗結(jié)果進(jìn)行可視化展示。導(dǎo)出中包括導(dǎo)出模型結(jié)果到數(shù)據(jù)庫或數(shù)據(jù)集、保存訓(xùn)練模型或Excel等。訓(xùn)練模型顯示的是用戶保存的訓(xùn)練好的模型。
了解這些基本的操作后,我們來試試做一個簡單的例子來運(yùn)用深度分析。比如想要通過用戶行為的歷史數(shù)據(jù)進(jìn)行預(yù)測分析,找出可能流失的客戶,以采取對應(yīng)策略挽留住老客戶,如下圖6。
圖6
首先拖入已經(jīng)創(chuàng)建的客戶流失訓(xùn)練數(shù)據(jù),在右側(cè)可以看到元數(shù)據(jù)列名稱和數(shù)據(jù)類型,要想了解客戶流失,需要的數(shù)據(jù)有客戶每天訪問的總時間、客戶每天總的費(fèi)用、客戶每天訪問的平均時間、客戶平均費(fèi)用、客戶流失與否等所有影響客戶和與客戶有關(guān)的數(shù)據(jù),可以在探索數(shù)據(jù)中看到詳細(xì)的數(shù)據(jù)值。當(dāng)有數(shù)據(jù)后,還需要對數(shù)據(jù)進(jìn)行處理,將采樣節(jié)點拖入到畫布中,對數(shù)據(jù)進(jìn)行采樣,一般我們使用隨機(jī)采樣的方式,采樣比例視數(shù)據(jù)量大小而定,如果數(shù)據(jù)量很大的話可以使用稍小的采樣比例,比如設(shè)置為10%,采樣的結(jié)果可以在探索數(shù)據(jù)中查看。
在采樣后我們需要對數(shù)據(jù)進(jìn)行分區(qū)訓(xùn)練,以驗證評估訓(xùn)練模型的好壞,一般訓(xùn)練集比例選擇70%。分區(qū)后就需要選擇合適的算法,由于數(shù)據(jù)屬于有監(jiān)督數(shù)據(jù),且是預(yù)測分析,因此我們選擇回歸算法。將邏輯回歸拖到畫布上,與數(shù)據(jù)分區(qū)連接,在右側(cè)配置項目中設(shè)置,如下圖7,產(chǎn)品共支持兩種回歸算法,選擇GLM(廣義線性模型),回歸方法選擇逐步,因變量選擇CustomerLeft列,然后點擊選擇,添加其余數(shù)值列為自變量。
圖7
這步配置好后,可以在節(jié)點上單擊右鍵選擇運(yùn)行,查看預(yù)測的數(shù)據(jù)結(jié)果。運(yùn)行成功后,會彈出結(jié)果展示,顯示運(yùn)行的結(jié)果,如下圖8。從結(jié)果中我們可以看出,通過模型系數(shù)可以得到邏輯回歸方程的系數(shù),包括截距項、各自變量的系數(shù)以及它們的P值、標(biāo)準(zhǔn)誤差。還可以看到模型訓(xùn)練集合驗證集的準(zhǔn)確率和均方誤差。
可以看出,訓(xùn)練集的準(zhǔn)確率高于驗證集且P值都較小(P值越小結(jié)果越好)。通過ROC曲線可以看出數(shù)據(jù)訓(xùn)練后效果更好,訓(xùn)練集AUC值0.797大于驗證集AUC值0.748(AUC值越大模型分類效果越好)。
訓(xùn)練好后可以保存為訓(xùn)練模型,將保存為訓(xùn)練模型節(jié)點拖到畫布中與邏輯回歸相連接,然后在右側(cè)配置中選擇保存的路徑,運(yùn)行實驗后模型顯示在訓(xùn)練模型文件夾中。保存的訓(xùn)練模型可以應(yīng)用在制作報告模塊或作為節(jié)點拖拽到畫布上再次使用。
不會機(jī)器學(xué)習(xí)也能搞定深度分析,實操演練一看即會
圖8
在對數(shù)據(jù)進(jìn)行了預(yù)測分析后,我們還需要對訓(xùn)練數(shù)據(jù)進(jìn)行評估,來驗證數(shù)據(jù)的準(zhǔn)確性。拖入“客戶流失測試數(shù)據(jù)”節(jié)點和評分節(jié)點,評分節(jié)點連接邏輯回歸和客戶流失測試數(shù)據(jù)兩個節(jié)點。點擊頂部菜單欄中的運(yùn)行全部,運(yùn)行成功后選擇評分節(jié)點,在數(shù)據(jù)探索里可以查看已經(jīng)使用邏輯回歸算法訓(xùn)練的模型應(yīng)用于“客戶流失測試數(shù)據(jù)“的結(jié)果,如下圖9。
切換不同列,可以看到每列的數(shù)據(jù),通過統(tǒng)計數(shù)據(jù)和可視化圖表可以觀察預(yù)測的準(zhǔn)確性。數(shù)據(jù)中包括平均數(shù)、數(shù)據(jù)類型、唯一值、缺失值等,當(dāng)缺失值為0時說明數(shù)據(jù)沒有異常值。
圖9
實驗創(chuàng)建成功后我們就可以進(jìn)行最后一步發(fā)布和部署了,將保存為PMML文件節(jié)點拖入畫布中,與邏輯回歸連接,運(yùn)行成功后,選擇此節(jié)點,在右側(cè)配置項目中可以選擇下載到本地,你可以將這個PMML文件部署到其他平臺,如下圖10。產(chǎn)品還支持導(dǎo)出到數(shù)據(jù)庫和保存為數(shù)據(jù)集。
圖10
對于成功的實驗,我們可以在可視化頁面查看預(yù)測的數(shù)據(jù),打開制作報告頁面,拖入餅圖組件,選擇客戶流失訓(xùn)練數(shù)據(jù),然后在更多中選擇已指定訓(xùn)練模型,選擇剛剛保存的訓(xùn)練模型,可以看到維度和度量分別新增了類和概率,可以看到流失和不流失的占比。再拖入一個表格組件,拖入訓(xùn)練的數(shù)據(jù),可以觀察預(yù)測的概率(1是流失,0是非流失),如下圖11。
圖11
通過以上這些,你對深度分析是不是有了一些了解呢?在國內(nèi),擁有深度分析功能的BI產(chǎn)品很少,永洪的深度分析模塊便于沒有機(jī)器學(xué)習(xí)基礎(chǔ)的小白上手,對于機(jī)器學(xué)習(xí)模型部署方便、快捷、不需要定開,且支持R、Python 兩種編程語言,用戶可以通過腳本自定義數(shù)據(jù)處理和模型,并通過可視化展示模型運(yùn)行結(jié)果。如果你也想要成為預(yù)測大師,就快來和我一起玩轉(zhuǎn)起來吧!
總結(jié)
以上是生活随笔為你收集整理的get这款工具,不会机器学习也能轻松搞定深度分析的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 数据分析工具有多好用?Yonghong
- 下一篇: 做报表必看!一个工具就可搞定中国式复杂报