【总结】分类、聚类的评估指标
1. 分類問題評價指標
1-1. 精確率與召回率
精確率(Precision)指的是模型判為正的所有樣本中有多少是真正的正樣本;召回率(Recall)指的是所有正樣本有多少被模型判為正樣本,即召回。感覺精確率是個局部的,召回率是個全局的。
精確率與召回率
1-2. ROC
真正類率(true positive rate ,TPR),刻畫的是分類器所識別出的 正實例占所有正實例的比例(正樣本預測結果數 / 正樣本實際數)。負正類率(false positive rate, FPR),計算的是分類器錯認為正類的負實例占所有負實例的比例(被預測為正的負樣本結果數 /負樣本實際數)。
( TPR=0,FPR=0 ) 把每個實例都預測為負類的模型
( TPR=1,FPR=1 ) 把每個實例都預測為正類的模型
( TPR=1,FPR=0 ) 理想模型
ROC曲線
ROC曲線下方的面積(Area Under the ROC Curve, AUC)提供了評價模型平均性能的另一種方法。如果模型是完美的,那么它的AUC = 1,如果模型是個簡單的隨機猜測模型,那么它的AUC = 0.5,如果一個模型好于另一個,則它的曲線下方面積相對較大。
首先AUC值是一個概率值,當你隨機挑選一個正樣本以及一個負樣本,當前的分類算法根據計算得到的Score值將這個正樣本排在負樣本前面的概率就是AUC值。當然,AUC值越大,當前的分類算法越有可能將正樣本排在負樣本前面,即能夠更好的分類。
1-3. 對數損失
對數損失(Log loss)亦被稱為邏輯回歸損失(Logistic regression loss)
對數損失通用式
二分類對數損失
1-4. 鉸鏈損失
鉸鏈損失(Hinge loss)一般用來使“邊緣最大化”(maximal margin)。
鉸鏈損失最開始出現在二分類問題中,假設正樣本被標記為1,負樣本被標記為-1,y是真實值,w是預測值,則鉸鏈損失定義為:
鉸鏈損失
1-5. 混淆矩陣
又被稱為錯誤矩陣,通過它可以直觀地觀察到算法的效果。它的每一列是樣本的預測分類,每一行是樣本的真實分類(反過來也可以),顧名思義,它反映了分類結果的混淆程度。混淆矩陣i行j列的原始是原本是類別i卻被分為類別j的樣本個數,計算完之后還可以對之進行可視化:
混淆矩陣
1-6. kappa系數
kappa系數用來衡量兩種標注結果的吻合程度,標注指的是把N個樣本標注為C個互斥類別。計算公式為
kappa系數
兩種標注結果完全相符時,K=1,越不相符其值越小,甚至是負的
1-7. 海明距離
-
在信息領域,兩個長度相等的字符串的海明距離是在相同位置上不同的字符的個數,也就是將一個字符串替換成另一個字符串需要的替換的次數。
-
機器學習方面,當預測結果與實際情況完全相符時,距離為0;當預測結果與實際情況完全不符時,距離為1;當預測結果是實際情況的真子集或真超集時,距離介于0到1之間。我們可以通過對所有樣本的預測情況求平均得到算法在測試集上的總體表現情況
1-8. Jaccard系數
可將 Jaccard相似系數用在衡量樣本的相似度上。
Jaccard相似系數
這里p+q+r可理解為A與B的并集的元素個數,而p是A與B的交集的元素個數。
2. 擬合問題評價指標
2-1. 平均絕對誤差
平均絕對誤差MAE(Mean Absolute Error)又被稱為l1范數損失(l1-norm loss):
平均絕對誤差MAE
2-2. 平均平方誤差
平均平方誤差MSE(Mean Squared Error)又被稱為l2范數損失(l2-norm loss):
平均平方誤差MSE
2-3. 解釋變異
解釋變異( Explained variance)是根據誤差的方差計算得到的:
解釋變異( Explained variance)
當需要比較兩組數據離散程度大小的時候,如果兩組數據的測量尺度相差太大,或者數據量綱的不同,直接使用標準差來進行比較不合適,此時就應當消除測量尺度和量綱的影響,而變異系數可以做到這一點,他是原始數據標準差與原始數據平均數的比。
事實上,可以認為變異系數和極差、標準差和方差一樣,都是反映數據離散程度的絕對值。一般來說,變量值平均水平高,其離散程度的測度值越大,反之越小。
2-4. 決定系數
決定系數(Coefficient of determination)又被稱為R2分數:
決定系數(Coefficient of determination)
當R2越接近1時,表示相關的方程式參考價值越高;相反,越接近0時,表示參考價值越低。這是在一元回歸分析中的情況。但從本質上說決定系數和回歸系數沒有關系,就像標準差和標準誤差在本質上沒有關系一樣。
3. 聚類的評價指標
3-1. 蘭德指數
蘭德指數(Rand index)需要給定實際類別信息C,假設K是聚類結果,a表示在C與K中都是同類別的元素對數,b表示在C與K中都是不同類別的元素對數,則蘭德指數為:
蘭德指數(Rand index)
RI取值范圍為[0,1],值越大意味著聚類結果與真實情況越吻合。
- 為了實現“在聚類結果隨機產生的情況下,指標應該接近零”,調整蘭德系數(Adjusted rand index)被提出,它具有更高的區分度:
ARI(Adjusted rand index)
ARI取值范圍為[?1,1],值越大意味著聚類結果與真實情況越吻合。從廣義的角度來講,ARI衡量的是兩個數據分布的吻合程度。
3-2. 互信息
- 互信息(Mutual Information)是用來衡量兩個數據分布的吻合程度。也是一有用的信息度量,它是指兩個事件集合之間的相關性。
- 用互信息的方法,在某個類別C中的出現概率高,而在其它類別中的出現概率低的詞條T,將獲得較高的詞條和類別互信息,也就可能被選取為類別C的特征。
- 互信息是term的存在與否能給類別c的正確判斷帶來的信息量。
- 詞條和類別的互信息體現了詞條和類別的相關程度,互信息越大,詞條和類別的相關程度也越大。得到詞條和類別之間的相關程度后,選取一定比例的,排名靠前的詞條作為最能代表此種類別的特征。
互信息(Mutual Information)
3-3. 輪廓系數
輪廓系數(Silhouette coefficient)適用于實際類別信息未知的情況。對于單個樣本,設a是與它同類別中其他樣本的平均距離,b是與它距離最近不同類別中樣本的平均距離,輪廓系數為:
輪廓系數(Silhouette coefficient)
對于一個樣本集合,它的輪廓系數是所有樣本輪廓系數的平均值。
輪廓系數取值范圍是[?1,1],同類別樣本越距離相近且不同類別樣本距離越遠,分數越高。
總結
以上是生活随笔為你收集整理的【总结】分类、聚类的评估指标的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【图解】ROC曲线
- 下一篇: 奇异值分解 VS 特征值分解