机器学习之 weka学习(一)weka介绍,安装和配置环境变量
本部分詳情可查看博客http://blog.csdn.net/u011067360/article/details/20844443
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 數據挖掘開源軟件:WEKA基礎教程
Weka簡介:
? ? ? ?Weka是由新西蘭懷卡托大學開發的智能分析系統(Waikato Environment for Knowledge Analysis)? 。在懷卡托大學以外的地方,Weka通常按諧音念成Mecca,是一種現今僅存活于新西蘭島的,健壯的棕色鳥,? 非常害羞,好奇心很強,但不會飛? 。
? ? ? ? ?Weka是用Java寫成的,它可以運行于幾乎所有的操作平臺,包括Linux,Windows等操作系統。
? ? ? ? ?Weka平臺提供一個統一界面,匯集了當今最經典的機器學習算法及數據預處理工具。做為知識獲取的完整系統,包括了數據輸入、預處理、知識獲取、模式評估等環節,以及對數據及學習結果的可視化操作。并且可以通過對不同的學習方法所得出的結果進行比較,找出解決當前問題的最佳算法。
Weka下載網頁
? ? ? ? ? ? ? ? ? ? ??http://www.cs.waikato.ac.nz/ml/weka/
? ? ? ? ? ? ? ? ? ? ?http://www.cs.waikato.ac.nz/ml/weka/downloading.html
? ? ? ? 在WEKA的安裝文件中有weka-3-8-0.exe和 weka-3-8-0jre.exe,這兩個軟件我們安裝一個即可,它們的區別是weka-3-8-0.exe只安裝WEKA,而weka- 3-8-0jre.exe是將WEKA和JRE一起安裝,所以在安裝之前我們應該首先檢查一下我們的電腦中是否安裝了JRE,如果本機中已經安裝了 JRE,那么我們就選擇weka-3-8-0.exe安裝程序,如果沒有安裝JRE,我們就選擇weka-3-8-0jre.exe安裝程序。
Weka安裝后需要配置環境變量:
環境變量的配置具體可參見
java 基礎安裝和Tomcat8配置
? ? ? ? Weka提供了許多用于數據可視化及預處理的工具(也稱作過濾器),包括種類繁多的用于數據集轉換的工具等。所有機器學習算法對輸入數據都要求其采用ARFF格式。?? Weka作為一個公開的知識過去的工作平臺,集合了大量能承擔數據(知識)挖掘任務的機器學習算法,包括分類,回歸、聚類、關聯規則等。
? ? ? ?Weka存儲數據的格式是ARFF(Attribute-RelationFile Format)文件,這是一種ASCII文本文件。Weka的ARFF文件可以分為兩部分。第一部分給出了頭信息(Head information),包括了對關系的聲明和對屬性的聲明。第二部分給出了數據信息(Data information),即數據集中給出的數據。從@Data標記開始,后面的就是數據信息了。
Weka與許多數據分析軟件一樣,Weka所處理的數據集是一個二維的表格.
?Weka處理的數據表格中,一個橫行稱為一個實例(Instance),豎行代表一個屬性(Arrtibute),數據表格稱為一個數據集,在weka看來,呈現了屬性之間的一種關系(Relation)
? ? ? ? 下面代碼所示的二維表格存儲在如下的ARFF文件中。這也就是Weka自帶的“weather.arff”文件,在Weka安裝目錄的“data”子目錄下可以找到。
@relation weather
?
@attribute outlook {sunny, overcast, rainy}
@attribute temperature numeric
@attribute humidity numeric
@attribute windy {TRUE, FALSE}
@attribute play {yes, no}
?
@data
sunny,85,85,FALSE,no
sunny,80,90,TRUE,no
overcast,83,86,FALSE,yes
rainy,70,96,FALSE,yes
rainy,68,80,FALSE,yes
rainy,65,70,TRUE,no
overcast,64,65,TRUE,yes
sunny,72,95,FALSE,no
sunny,69,70,FALSE,yes
rainy,75,80,FALSE,yes
sunny,75,70,TRUE,yes
overcast,72,90,TRUE,yes
overcast,81,75,FALSE,yes
rainy,71,91,TRUE,no
?Weka中的屬性介紹:
? ? ? ?數據集中的每一個屬性都有它對應的“@attribute”語句,來定義它的屬性名稱和數據類型。??
? ? ? ?Weka支持的有四種,分別是
????????numeric-------------------------數值型
????????nominal-specification-----------分類(nominal)型??
????????string----------------------------字符串型
?????? date[]--------日期和時間型
數值屬性:是整數或者實數,但Weka把它們都當作實數看待。
字符串屬性:可以包含任意的文本。這種類型的屬性在文本挖掘中非常有用。如:@ATTRIBUTE?LC string
分類屬性:由列出所有可能的類別名稱并放在花括號中,如:
@attribute outlook {sunny, overcast, rainy} 。每個實例對應的“outlook”值必是這三者之一。
日期和時間屬性:統一用“date”類型表示,它的格式是:@attribute date [] 其中是這個屬性的名稱,是一個字符 串,來規定該怎樣解析和顯示日期或時間的格式, 默認的字符串是ISO-8601所給的日期時間組合格式“yyyy-mm-dd hh:mm:ss”。 數據信息部分表達日期的字符串必須符合聲明中規定的格式要求。
“Exploer”界面:
根據不同的功能把這個界面分成8個區域。
區域1的幾個選項卡是用來切換不同的挖掘任務面板。這一節用到的只有“Preprocess”,其他面板的功能將在以后介紹。
主界面最左上角(標題欄下方)的是標簽欄,分為五個部分,功能依次是:
Preprocess(數據預處理):選擇和修改要處理的數據;
Classify(分類):訓練和測試關于分類或回歸的學習方案;
Cluster(聚類):從數據中學習聚類;
Associate(關聯):從數據中學習關聯規則;
Select attributes(屬性選擇):選擇數據中最相關的屬性;
Visualize(可視化):查看數據的交互式二維圖像。
區域2是一些常用按鈕。包括打開數據,保存及編輯功能。我們在這里把"bank-data.csv"另存為"bank-data.arff"。
載入、編輯數據
標簽欄下方是載入數據欄,功能如下:
Open file:打開一個對話框,允許你瀏覽本地文件系統上的數據文件(.dat);?
Open URL:請求一個存有數據的URL 地址;?
Open DB:從數據庫中讀取數據;?
Generate:從一些數據生成器中生成人造數據。
在區域3中“Choose”某個“Filter”,可以實現篩選數據或者對數據進行某種變換。數據預處理主要就利用它來實現。
區域4展示了數據集的一些基本情況。
區域5中列出了數據集的所有屬性。勾選一些屬性并“Remove”就可以刪除它們,刪除后還可以利用區域2的“Undo”按鈕找回。區域5上方的一排按鈕是用來實現快速勾選的。
在區域5中選中某個屬性,則區域6中有關于這個屬性的摘要。注意對于數值屬性和分類屬性,摘要的方式是不一樣的。圖中顯示的是對數值屬性“income”的摘要。
區域7是區域5中選中屬性的直方圖。若數據集的最后一個屬性(我們說過這是分類或回歸任務的默認目標變量)是分類變量(這里的“pep”正好是),直方圖中的每個長方形就會按照該變量的比例分成不同顏色的段。要想換個分段的依據,在區域7上方的下拉框中選個不同的分類屬性就可以了。下拉框里選上“No Class”或者一個數值屬性會變成黑白的直方圖。
區域8是狀態欄,可以查看Log以判斷是否有錯。右邊的weka鳥在動的話說明WEKA正在執行挖掘任務。右鍵點擊狀態欄還可以執行JAVA內存的垃圾回收。
總結
以上是生活随笔為你收集整理的机器学习之 weka学习(一)weka介绍,安装和配置环境变量的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Flex 布局教程(弹性布局)
- 下一篇: position的值, relative