机器学习之 weka学习(四)
本文轉自:?
http://blog.csdn.net/lantian0802/article/details/8875874
http://blog.csdn.net/lkj345/article/details/50152055
點擊最上方的Classify按鈕,選擇Logistic(邏輯回歸)分類方法,在Test options中選擇Percentage split,66%。這樣weka自動將大約2/3的數據作為訓練集,大約1/3的數據作為測試集,采用邏輯回歸作為分類方法,結果如下圖。
?另外也可以選擇Cross-validation,Folds設置為10,這是10-fold的交叉驗證,首先隨機將所有數據隨機分成10份,將其中9份作為訓練集,另外1份作為測試集,按照邏輯回歸進行10次分類實驗,最終保證每個數據都能作為測試集并且僅有一次,將10次分類結果綜合起來得到最終的分類結果?
為了保證生成的模型的準確性而不至于出現擬合的現象,我們有必要采用10折交叉驗證來選擇和評估模型。
10 折交叉驗證:英文名叫做10-fold corss –validation,用來測試算法的準確性。是常用的測試方法。將數據集分成10份,輪流將其中9份作為訓練數據,1份作為測試數據,進行試驗。每次試驗都會得到相應的正確率(或差錯率)。10次的結果的正確率(或差錯率)的平均值作為對算法精確讀的估計,一般還需要進行多次10折交叉驗證。
- Correctly Classified Instances表示分類正確率?
- Incorrectly Classified Instances表示分類錯誤率?
- TP Rate是True Positive Rate的縮寫,表示本來是正樣本,結果也被分類成正樣本的比例?
- FP Rate是False Positive Rate的縮寫,表示本來是負樣本,結果卻被分類成了正樣本的比例?
- Precision表示查準率,公式為Precision =?TPTP+FP,含義是被分類為正樣本中真正的正樣本的比例?
- Recall表示查全率,公式為Recall =?TPTP+FN,FN Rate是False Negative Rate的縮寫,表示本來是正樣本,結果卻被分類成負樣本的比例,所以Recall的含義是真正的正樣本占整個數據集(分類正確的和錯誤的)中正樣本的比例?
- F-Measure的公式是2?P?RP+R,是很常用的判斷分類效果好壞的指標?
weka和matlab完成完整分類實驗
http://blog.csdn.net/lkj345/article/details/50152055
WEKA的應用之 J48(C4.5)
http://blog.csdn.net/omenglishuixiang1234/article/details/48343987
總結
以上是生活随笔為你收集整理的机器学习之 weka学习(四)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 机器学习之 weka学习(三)
- 下一篇: uglifyjs压缩JS