3个最常用的分类模型评估指标!
針對二元分類結果,常用的評估指標有如下三個:查準率(Precision)、查全率(Recall)以及F-score。這篇文章將討論這些指標的含義、設計初衷以及局限性。
01 二元分類問題
在機器學習領域,我們常常會碰到二元分類問題。這是因為在現實中,我們常常面對一些二元選擇,比如在休息時,決定是否一把吃雞游戲。不僅如此,很多事情的結果也是二元的,比如表白時,是否被發好人卡。
當然,在實際中還存在一些結果是多元的情況,比如從紅、黃、藍三種顏色中,選擇一個,而這些多元情況對應著機器學習里的多元分類問題。對于多元分類問題,在實際的處理過程中常將它們轉換為多個二元分類問題解決,比如圖1所示的例子。
圖1
那么自然地,一個多元分類結果可以分解為多個二元分類結果來進行評估。這就是為什么我們只討論二元分類結果的評估。為了更加嚴謹的表述,我們使用變量
來表示真實的結果,
表示預測的結果。其中
表示正面的結果(在實際應用中更加關心的類別),比如妹子接受表白,而
表示負面的結果,比如妹子拒絕表白。
02 查準率與查全率
在討論查準查全的數學公式之前,我們先來探討:針對二元分類問題,應該如何正確評估一份預測結果的效果。
沿用上面的數學記號。如圖2所示,圖中標記為1的方塊表示
,但
的數據;標記為3的凹型方塊表示
,但
的數據;標記為2的方塊表示
,且
的數據。而且這些圖形的面積與對應數據的數據量成正比,比如,
,且
的數據個數越多,標記2的面積越大。
很容易發現,圖中標記為2的部分表示模型預測結果正確,而標記為1和3的部分則表示模型預測結果錯誤。
- 對于一份預測結果,一方面希望它能做到“精確”:當時
,有很大概率,真實值
就等于1。這表現在圖形上,就是標記2的面積很大,而標記3的面積很小。
- 另一方面也希望它能做到“全面”:對于幾乎所有的
,對應的預測值
也等于1。在圖形上,這表示標記2的面積很大,而標記1的面積很小。
于是,對應地定義查準率(precision)和查全率(recall)這兩個技術指標(有的文獻里,將查準率翻譯為精確率;將查全率翻譯為召回率)來評估一份預測結果的效果。比較直觀的定義如圖2所示。
圖2
為了更加嚴謹,下面將從數學的角度給出這兩個指標的嚴格定義。首先將數據按預測值和真實值分為4類,具體見表1。
表1
于是可以得到公式(1):
公式(1)
經過進一步的推導,可以得到這兩個技術指標的概率定義,如公式(2)。從概率上來講:預測值等于1時,真實值等于1的概率為查準率;真實值等于1時,預測值等于1的概率為查全率。
理想的情況是這兩個指標都很高,但現實往往是殘酷的。這兩個指標通常存在著此消彼長的現象。比如降低預測表白成功的標準(也就是增加
的數量),往往會提高它的查全率,但同時會降低它的查準率,反之依然。整個過程的直觀圖像如圖3所示。
圖3
?
03 F-score
既然這兩個指標往往是成反比的,而且在很大程度上,受預測標準的控制。那么只拿其中的某一個指標去評估預測結果是不太合適的。比如在極端情況下,預測所有表白都成功,即。這時預測的查全率是100%,但查準率肯定很低,而且這樣的預測顯然是沒太大價值的。
而兩個指標同時使用,在實際應用時又不太方便。為了破解這個困局,在實踐中,我們定義了新的指標去“綜合”這兩個指標。具體的定義如公式(3),從數學上來看,它其實是查準率與查全率的調和平均數。對于二元分類問題,
綜合考慮了預測結果的查準率和查全率,是一個比較好的評估指標。
其實從模型的角度來看,查準率與查全率的“相互矛盾”給了我們更多的調整空間。應用場景不同,我們對查準率和查全率的要求是不一樣的。在有的場景中,關注的焦點是查全率。
例如對于網上購物的衣服推薦,電商平臺關心的是那些對衣服感興趣的客戶,希望模型對這些客戶的預測都正確;而那些對衣服不感興趣的客戶,即使模型結果有較大偏差,也是可以接受的。也就是說,電商平臺重視查全率,但不太關心查準率。這時就可以調低模型的預測標準,通過犧牲查準率來保證查全率。
但在有的場景中,查準率才是重點。例如在實時競價(RTB)廣告行業,有3種參與者:需要在互聯網上對產品做廣告的商家,比如Nike;廣告投放中介(DSP);廣告位提供者,比如新浪網。Nike將廣告內容委托給廣告投放中介A,A通過分析選定目標客戶群。當目標客戶訪問新浪網時,A向新浪網購買廣告位并將Nike廣告推送給他。
如果該客戶點擊了Nike廣告,Nike會向投放中介A支付相應費用。否則,全部費用由中介A承擔。那么對于廣告投放中介A,它希望投放的每條廣告都會被點擊,但不太關心是否每個對Nike感興趣的客戶都被推送了廣告。換句話說,廣告投放中介更關心查準率。于是可以通過調高模型的預測標準來提高查準率,當然這時會犧牲一部分查全率。
對于這些偏重某一特定指標的場景,可以如公式(4),相應地定義指標(其實是的一個特例)。當靠近0時,偏向查準率,而很大時,則偏向查全率,如圖4所示。
圖4
?
04 總結
查準率、查全率和F-score是最為常用的二元分類結果評估指標。其中查準率和查全率這兩個指標都只側重于預測結果的某一個方面,并不能較全面地評價分類結果。而F-score則是更加“上層”的評估指標,它建立在前面兩個指標的基礎上,綜合地考慮了分類結果的精確性和全面性。
從上面的討論可以看到,這三個指標針對的是某一份給定的分類結果。但對于大多數分類模型,它們往往能產生很多份分類結果,比如對于邏輯回歸,調整預測閾值可以得到不同的分類結果。也就是說,這三個指標并不能“很全面”地評估模型本身的效果,需要引入新的評估指標。
本文分享自微信公眾號 -?數據分析1480(lsxxx2011)
原文出處及轉載信息見文內詳細說明,如有侵權,請聯系?yunjia_community@tencent.com?刪除。
原始發表時間:2019-04-29
本文參與騰訊云自媒體分享計劃,歡迎正在閱讀的你也加入,一起分享。
總結
以上是生活随笔為你收集整理的3个最常用的分类模型评估指标!的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: ETL流程概述及常用实现方法
- 下一篇: 利用xgb筛选模型变量