iris数据集实验
iris鳶尾花實驗
- 一、實驗目的
- 二、實驗環(huán)境
- 三、實驗要求
- 四、實驗過程及結(jié)果
- 五、實驗總結(jié)
一、實驗目的
使用數(shù)據(jù)挖掘中的分類算法,對數(shù)據(jù)集進行分類訓練并測試。應用不同的分類算法,比較他們之間的不同。與此同時了解Weka平臺的基本功能與使用方法。
二、實驗環(huán)境
實驗采用Weka 3.8?平臺,數(shù)據(jù)使用給定的鳶尾花xls格式的數(shù)據(jù)集iris.xls。?對于iris數(shù)據(jù)集,它包含了150個實例(每個分類包含50個實例),共有sepal?length、sepal?width、petal?length、petal?width和class五種屬性。期中前四種屬性為數(shù)值類型,class屬性為分類屬性,表示實例所對應的類別。該數(shù)據(jù)集中的全部實例共可分為三類:Iris?Setosa、Iris?Versicolour和Iris?Virginica。
實驗所需的訓練集和測試集均為iris.arff。
三、實驗要求
1、將iris.xls轉(zhuǎn)化為iris.arff。
2、應用iris數(shù)據(jù)集,分別采用KNN、C4.5決策樹分類器和樸素貝葉斯分類器進行測試和評價,分別在訓練數(shù)據(jù)上訓練出分類模型,并對三個模型進行全面評價比較,得到一個最好的分類模型以及該模型所有設置的最優(yōu)參數(shù)。
3、使用這些參數(shù)以及訓練集和校驗集數(shù)據(jù)一起構(gòu)造出一個最優(yōu)分類器,并利用該分類器對測試數(shù)據(jù)進行預測。
四、實驗過程及結(jié)果
1、先將數(shù)據(jù)集iris.arff放入Weka 3.8?平臺中
第一步:將原始Excel文件另存為CSV文件
第二步:在weka中打開iris數(shù)據(jù)集.csv文件,另save為.arrf文件,然后在weka中打開iris數(shù)據(jù)集.arrf文件即可。
2、在waka中應用iris數(shù)據(jù)集,分別采用KNN、C4.5決策樹分類器和樸素貝葉斯分類器進行測試和評價。
首先移除remove無關數(shù)據(jù)
(1)KNN分類器:
(2)C4.5決策樹分類器:
C4.5算法是ID3算法的改進,C4.5算法與ID3算法一樣使用了信息熵的概念,并和ID3一樣通過學習數(shù)據(jù)來建立決策樹。
在weka中右鍵可查看生成的決策樹
(3)樸素貝葉斯分類器:
關于樸素貝葉斯算法,貝葉斯方法不僅能夠計算顯式的假設概率,還能為理解多數(shù)其他方法提供一種有效的手段。貝葉斯方法的特點主要包括:增量式學習的特點;先驗知識可以與觀察到的實例一起決定假設的最終概率的特點;允許假設做出不確定性預測的特點;對新實例的分類可由多個假設以它們的概率為權重一起作出預測的特點等等。算法處理里的數(shù)據(jù)集特征之間互不相關,主要應用于文本分類、性別分類。
五、實驗總結(jié)
應用iris數(shù)據(jù)集分別利用實驗中的算法分析預測,最終結(jié)果選用C4.5算法準確率最高,準確分類率為98%。通過實驗,也讓我更深刻的學習到這三種算法的應用數(shù)據(jù)集和其優(yōu)缺點,基本掌握weka平臺操作。
堅持比努力更可怕!沖沖沖
總結(jié)
- 上一篇: Sqlserver2008数据库可疑文件
- 下一篇: 这样给数组初始化,你肯定没有见过