分类算法的比较准则
不同的分類方法有不同的特性,側重于不同的數據集,對于同一個數據集不同的分類方法也會產生不同的分類結果。那么對于同一問題,究竟應該采用那種方法更好呢?這一問題一般有以下五種評價方法或者叫做比較準則。
1.分類精度。這是用得最多也是最為有效得一種評價尺度。對于預測型得分類任務,分類精度是指元組被正確分配到其所在的類別中的個數占元組總個數的百分比。
2.分類速度。這是一個傳統的算法度量方法,但是計算速度是由多種因素共同決定的如所使用的機器的硬件環境,算法本身的時間復雜度,數據質量的好壞等等。這個指標也是一個非常非常重要的度量準則,而且數據集越大該問題就越突出。
3.模型描述的簡潔性和可解釋性。模型的簡潔度標準也很重要,特別是對于描述型的分類任務,模型描述模型越復雜,其結果就越難以理解,應用當然也就越困難,模型描述愈簡潔,愈容易理解,則愈受歡迎。可解釋性就是所分類出來的結果要盡量讓人看得懂,其結果盡量以可視化的方式(如圖,表等)或規則來顯示給用戶。
4.分類模型對各種數據的適應度。由于所分析的數據對象中經常會存在不完整數據,噪聲數據,不一致數據或者數據分布是稀疏的,因此一個好的分類器需要能夠對各種類型的數據集有較強的適應能力。
5.可伸縮性。可伸縮性是指分類算法對海量數據具有有效構建模型的能力。具有良好可伸縮性的算法也是現在的一個研究熱點,因為現存的許多方法在小數據集上的卻有非常好的表現,但是一用到大數據集上,其表現就不盡人意。所以可伸縮性也是很重要的一個方面。
?
影響一個分類器錯誤率的因素
(1)訓練集的記錄數量。生成器要利用訓練集進行學習,因而訓練集越大,分類器也就越可靠。然而,訓練集越大,生成器構造分類器的時間也就越長。錯誤率改善情況隨訓練集規模的增大而降低。
(2)屬性的數目。更多的屬性數目對于生成器而言意味著要計算更多的組合,使得生成器難度增大,需要的時間也更長。有時隨機的關系會將生成器引入歧途,結果可能構造出不夠準確的分類器(這在技術上被稱為過分擬合)。因此,如果我們通過常識可以確認某個屬性與目標無關,則將它從訓練集中移走。
(3)屬性中的信息。有時生成器不能從屬性中獲取足夠的信息來正確、低錯誤率地預測標簽(如試圖根據某人眼睛的顏色來決定他的收入)。加入其他的屬性(如職業、每周工作小時數和年齡),可以降低錯誤率。
(4)待預測記錄的分布。如果待預測記錄來自不同于訓練集中記錄的分布,那么錯誤率有可能很高。比如如果你從包含家用轎車數據的訓練集中構造出分類器,那么試圖用它來對包含許多運動用車輛的記錄進行分類可能沒多大用途,因為數據屬性值的分布可能是有很大差別的。
?參考:?
?http://www.360doc.com/content/080514/01/63626_1257836.html
總結
- 上一篇: 总体参数估计概述
- 下一篇: 研究动机(Motivation)-如何写