分类的评估标准_机器学习:模型评估之评估指标
要評估模型的好壞光有評估方法還不行,還得確定評估指標。評估指標就是衡量模型泛化能力好壞的評估標準,反映了任務需求;使用不同的評估指標往往會導致不同的評估結(jié)果。
在分類預測任務中,給定測試樣例集,評估分類模型的性能就是把每一個待測樣本的分類結(jié)果和它的真實標記比較。因此,準確率和錯誤率是最常用的兩種評估指標:
√ 準確率就是分對樣本占測試樣本總數(shù)的比例
√ 錯誤率就是分錯樣本占測試樣本總數(shù)的比例
由于準確率和錯誤率將每個類看得同等重要,因此不適合用來分析類不平衡數(shù)據(jù)集。在類不平衡數(shù)據(jù)集中,正確分類稀有類比正確分類多數(shù)類更有意義。此時查準率和查全率比正確率和錯誤率更適合。對于二分類問題,稀有類樣本通常記為正例,而多數(shù)類樣本記為負例。統(tǒng)計真實標記和預測結(jié)果的組合可以得到如下所示的混淆矩陣:
混淆矩陣
查準率(P)就是被分為正類的樣本中實際為正類的樣本比例:P=TP/(TP+FP)
查全率(R)就是實際為正類的樣本中被分為正類的樣本比例:P=TP/(TP+FN)
查準率和查全率之間通常是矛盾的,查準率高時,查全率往往偏低,反之亦然。因此為了綜合考慮查準率和查全率,它們的調(diào)和均值F1度量被提出:
很多分類器可以為測試樣例產(chǎn)生一個概率預測,因此也可以根據(jù)預測的概率將測試樣例進行排序,把最可能是正例的排在最前面,把最不可能的正例排在最后面。這樣,分類過程就相當于在這個排序中以某個“截斷點”將樣本分為兩部分,前一部分分為正例,后一部分分為反例。在不同的應用任務下,用戶可以根據(jù)不同的任務需求來選擇不同的截斷點。因此,排序本身的質(zhì)量好壞體現(xiàn)了分類器在不同任務下的泛化性能。
ROC(受試者工作特征)曲線,根據(jù)分類器的預測結(jié)果對樣例排序,并按此順序依次選擇不同的“截斷點”逐個把樣例作為正例進行預測,每次計算出當前分類器的“真正率”和“假正率”,然后以它們?yōu)榭v軸和橫軸繪圖,就可得到ROC曲線。
真正率(TPR)就是被分為正類的正樣本比例:TPR=TP/(TP+FN)
假正率(FPR)就是被分為正類的負樣本比例:FPR=FP/(FP+TN)
若某個分類器的ROC曲線被另一個分類器的曲線“包住”,則后者性能優(yōu)于前者;否則如果曲線交叉,可以根據(jù)ROC曲線下面積的大小進行比較,即AUC。
AUC的計算:
AUC度量了分類預測器樣本排序的性能。
總結(jié)
以上是生活随笔為你收集整理的分类的评估标准_机器学习:模型评估之评估指标的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: h3c防火墙u200配置命令_网络设备配
- 下一篇: leetcode 打印_LeetCode