数据挖掘工具软件Weka学习教程
一、數(shù)據(jù)格式
理解數(shù)據(jù)格式后,就可以完全控制數(shù)據(jù)預(yù)處理過程。
1.1 ARFF格式
樣例 | 說明 |
%整行注釋 @relation person @attribute name string %半行注釋 @attribute age numeric @attribute sex {male,female} @attribute birthday date "yyyy-MM-dd HH:mm:ss" @data "Zhang San",85,male,'2011-06-10 00:00:00' Lisi,?,male,"2011-06-11 00:00:00" …… | 關(guān)系名,在Explorer界面顯示 String 類型(文本挖掘使用) 數(shù)值類型(integer,real完全同義) 枚舉類型(花括號(hào)枚舉全部值) 日期類型(日期格式默認(rèn)) 數(shù)據(jù)開始標(biāo)志 (逗號(hào)分割數(shù)據(jù)) |
說明:
relation, string, data這些內(nèi)置關(guān)鍵字無所謂大小寫,使用string.equalsIgnoreCase()方法匹配字符串。但數(shù)據(jù)值嚴(yán)格區(qū)分大小寫。
weka只解析4中數(shù)據(jù)類型:字符串、數(shù)值、枚舉、日期。
數(shù)值型標(biāo)志numeric、integer、real完全同義。
枚舉類型無關(guān)鍵字,直接花括號(hào)擴(kuò)住所有枚舉值。
日期類型的格式字符串不指定,則默認(rèn)使用 "yyyy-MM-dd'T'HH:mm:ss" (2011-06-10T00:00:00)。
缺失值用半角問號(hào)表示 ? ,不認(rèn)識(shí) NULL。
解析arff過程并非逐行讀取數(shù)據(jù),而是使用java.io.StreamTokenizer 。所以 string,nominal 如果值內(nèi)沒有空格,則不需要用引號(hào)包括。空行隨便加。
1.2 CSV格式
weka對(duì)待csv格式的文件比較粗暴,對(duì)第一行指定的屬性,假定是數(shù)值型,然后在后續(xù)讀取對(duì)應(yīng)的數(shù)據(jù)時(shí),嘗試解析數(shù)值,如果某一個(gè)解析失敗,就將該屬性重新標(biāo)記為枚舉型(無string、date);如果全部數(shù)據(jù)都能解析成數(shù)值,就認(rèn)為該屬性是數(shù)值型。
1.3 Arff Viewer
界面:GUI Chooser > Tools > Arff Viewer
[界面截圖略]
作用:以表格形式顯示數(shù)據(jù)。并可對(duì)數(shù)據(jù)初步處理。
點(diǎn)擊表頭對(duì)數(shù)據(jù)排序(單擊正序排列、shift+單擊逆序排列),然后處理噪聲值。對(duì)特別大或特別小的數(shù)據(jù),手動(dòng)改為均值(右鍵表頭> get mean)或缺失值(將值刪除為空)。
注:csv格式的解析方式是內(nèi)置的,屬性被認(rèn)為是數(shù)值還是枚舉,在這里不能更改。
二、 數(shù)據(jù)理解
2.1 數(shù)據(jù)集概覽
界面:GUI Chooser > Explorer按鈕 > Preprocess面板
作用:
1、單屬性統(tǒng)計(jì)信息瀏覽。
2、屬性剔除。
3、對(duì)數(shù)據(jù)集做預(yù)處理(歸一化、離散化等)。
2.2 單屬性直方圖
界面:GUI Chooser > Explorer按鈕 > Preprocess面板 > Visualize All
[界面截圖略]
作用:僅觀察了解數(shù)據(jù)。
2.3 二維散點(diǎn)圖
界面:GUI Chooser > Explorer按鈕 > Visualize面板
作用:
1、查看各屬性之間的關(guān)系,深入理解數(shù)據(jù)集。
2、進(jìn)行數(shù)據(jù)選擇(放大散點(diǎn)圖后進(jìn)行)。
2.4 屬性選擇
界面:GUI Chooser > Explorer按鈕 > Select attributes 面板
作用:
1、 查看所有屬性對(duì)于某一個(gè)屬性的重要程度(最能區(qū)分指定屬性的,最重要,一般使用Gain指標(biāo))。
三、分類
界面:GUI Chooser > Explorer按鈕 > Classify 面板
[界面截圖略]
作用:分類。
●屬性類型和算法選擇
●算法參數(shù)
●測(cè)試集
●結(jié)果顯示
四、聚類
界面:GUI Chooser > Explorer按鈕 > Cluster 面板
[界面截圖略]
作用:聚類。
●算法參數(shù)
●聚類模式
●結(jié)果顯示
五、關(guān)聯(lián)規(guī)則
界面:GUI Chooser > Explorer按鈕 > Associate 面板
[界面截圖略]
由于weka arff格式的限制,其關(guān)聯(lián)規(guī)則分析挖掘功能很不實(shí)用。類似于背包分析的問題,需要自己寫apriori算法。Apriori算法比較耗資源,可使用FP-Tree算法。
六、挖掘模型固化
界面:GUI Chooser > KnowledgeFlow按鈕
說明:知識(shí)流可以認(rèn)為是weka內(nèi)核的一個(gè)完全圖形化接口,挖掘功能方面與Explorer一樣。但這里可以將數(shù)據(jù)挖掘全過程中的操作用一個(gè)流程表示,并且可以保存起來,多次使用(每次使用只需要更改數(shù)據(jù)集)。
當(dāng)對(duì)某一主題探索出合適的挖掘流程后,可以在這里固化一個(gè)挖掘模型,以后多次使用。
七、其他
7.1 Weka的實(shí)驗(yàn)界面主要用來在同一個(gè)訓(xùn)練集上對(duì)比不同的分類算法,可以看作是對(duì)挖掘探索的一個(gè)封裝,控制方面的靈活性不佳。
7.2 命令行界面也是weka內(nèi)核的一個(gè)接口。
轉(zhuǎn)載于:https://blog.51cto.com/abool/1580796
總結(jié)
以上是生活随笔為你收集整理的数据挖掘工具软件Weka学习教程的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 以前折腾的7zip图标
- 下一篇: 常用的rpm和yum的一些命令