科普 | 一文完全理解AUC-ROC曲线
來源:https://towardsdatascience.com/understanding-auc-roc-curve-68b2303cc9c5
翻譯:石頭
機器學習模型的性能測量是一項必不可少的工作,因此,當涉及到分類問題時,我們可以考慮用AUC-ROC曲線?。當我們需要檢查或可視化多分類問題的性能時,我們使用ROC曲線下的面積(AUC),它是檢驗任何分類模型性能最重要的評估指標之一。
本文旨在回答以下問題:
1. 什么是AUC-ROC曲線 ?
2. 定義AUC和ROC曲線中使用的術語
3. 如何推測分類模型的性能 ?
4. 靈敏度、特異度、FPR與閾值的關系
5. 如何將AUC-ROC曲線用于多分類模型
1.?什么是AUC-ROC曲線
AUC-ROC曲線是在不同閾值設置的條件下,分類問題的性能度量。ROC的含義為概率曲線,AUC的含義為正負類可正確分類的程度。它告訴模型能夠在多大程度上區分類,AUC越高,模型越能預測0為0和1為1。類比疾病診斷模型,若AUC越高,模型對有疾病和無疾病的區分就越好。
ROC曲線由TPR與FPR作圖,其中TPR是y軸,FPR是x軸。如下圖:
2.?AUC-ROC曲線的術語定義
真陽率(TPR)/召回率(Recall)/敏感度(Sensitivity):
特異度(Specificity)
假陽率(FPR)
3. 如何推測分類模型的性能
一個優秀的模型AUC接近于1,這意味著它具有良好的可分性。一個差模型的AUC接近于0,意味著它的可分性最差,意味著模型預測0是1,1是0。當AUC為0.5時,表示模型沒有任何的分類能力,意味這隨機給出分類結果。
讓我們來解釋以下上面的陳述。
我們知道,ROC是概率曲線,我們畫出這些概率的分布,
備注:紅色分布曲線為正類(有疾病者),綠色分布曲線為負類(無疾病者)。
如上圖為正類和負類的分布,我們根據ROC曲線的定義,以閾值為1向0移動,得到相應的TPR和FPR,因此我們根據上圖可畫出ROC曲線,ROC曲線下的面積等于1,即AUC=1。
ROC曲線圖如下:
同理,我們根據下圖的正負類分布畫出ROC曲線,AUC = 0.7
當正負類的分布完全相同時,即模型的分類結果是隨機給出的,即AUC=0.5,如下圖的正負類分布和ROC曲線:
AUC=0.5時,模型沒有區分正類和負類的能力,這是最糟糕的情況。
當AUC=0時,模型完全預測錯誤,即負類預測為正類,正類預測為負類。
4. 敏感度(Sensitivity)、特異度(Specificity)、FPR與閾值(Threshold)的關系
敏感度和特異度成反比,當我們增加敏感度時,特異度下降,反之亦然。
解釋:當我們降低閾值時,我們的預測結果會得到更多的正值,從而增加了敏感度,降低了特異度。
同樣地,當我們增加閾值時,我們的預測結果會得到更多的負值,從而增加了特異度,降低了靈敏度。
正如我們所知道的,FPR = 1 -?特異度,所以當我們增加TPR時,FPR也會增加,反之亦然。
5.?如何將AUC-ROC曲線用于多分類模型
在多分類模型中,我們可以用一種方法繪制N個類別的AUC-ROC曲線。舉個例子,如果你有3個類別,X,Y,Z。你會繪制出3個ROC曲線,一個ROC曲線代表X,對應Y和Z,一個ROC曲線達標Y,對應X和Z,一個ROC曲線代表Z,對應Y和X。
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習在線手冊深度學習在線手冊AI基礎下載(pdf更新到25集)本站qq群1003271085,加入微信群請回復“加群”獲取一折本站知識星球優惠券,請回復“知識星球”喜歡文章,點個在看
總結
以上是生活随笔為你收集整理的科普 | 一文完全理解AUC-ROC曲线的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 喜大普奔!Github 移动端上架!
- 下一篇: 8个超好用的Python内置函数,提升效