风控模型指标详解
目錄:
- 1.P-R曲線
- 2.ROC,AUC
- P-R曲線和ROC曲線的區別
- 3.WOE.IV值
- 4.K-S值
- KS曲線與ROC曲線的區別
- 5.PSI,CSI
- PSI
- CSI
- PSI和CSI的區別
- 6.Lift曲線
1.P-R曲線
? 首先,明確兩個概念,精確率§和召回率?。下表中,1代表正例,0代表負例。
P=TPP=TPTP+FPP=\frac{TP}{P}=\frac{TP}{TP+FP}P=PTP?=TP+FPTP?
R=TPR=TPTP+FNR=\frac{TP}{R}=\frac{TP}{TP+FN}R=RTP?=TP+FNTP?
? 精確率是指分類正確的正樣本個數占分類器判定為正樣本個數的比例。它表示的是預測為正的樣本中有多少是真正的正樣本。
召回率是指分類正確的樣本個數占真正的正樣本個數的比例,它表示的是樣本中的正例有多少被預測正確了。這里可以參看西瓜書,里面好瓜壞瓜的例子,比較容易理解。
? Precision和Recall是既矛盾又統一的兩個指標,為了提高Precision,分類器需要盡量在“更有把握”時才把樣本預測為正樣本,但此時往往會因為過于保守而漏掉很多“沒有把握”的正樣本,導致Recall很低。
? 接下來說回P-R曲線,橫軸是召回率R,縱軸是精確率P。對于P-R曲線上的一點,表示在某一閾值下,模型將大于該閾值的結果判定為正樣本,小于該閾值的結果判定為負樣本,此時返回結果對應的P和R。一般的P-R曲線如下圖:
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-tOhuUphD-1575456885844)(./image/PR曲線.jpg)]
注意,只用某個點對應的精確率和召回率無法全面衡量模型性能。
2.ROC,AUC
? 介紹ROC之前,先看幾個指標,假陽率(FPR)和真陽率(TPR)。
FPR=FPN=FPFP+TNFPR=\frac{FP}{N}=\frac{FP}{FP+TN}FPR=NFP?=FP+TNFP?
TPR=TPP=TPTP+FNTPR=\frac{TP}{P}=\frac{TP}{TP+FN}TPR=PTP?=TP+FNTP?
? P是真實的正樣本數量,N是真實的負樣本數量。TP是P個正樣本中被分類器預測為正樣本的個數,FP是N個負樣本中被分類器預測為正樣本的個數。
? 可以這樣記這兩個公式,以TPR為例,分子就是TP,因為T意味著P(正)分類正確,所以分母為P(正類)。正類有兩種,一種是預測為正類且預測正確(TP),一種是預測為負類但是預測錯誤(FN)。FPR同理,只是分母為N而已。
ROC曲線通過不斷移動分類器的“截斷點”來生成曲線上的一組關鍵點。
具體介紹見https://zhuanlan.zhihu.com/p/60218684(不想寫了。。。)
P-R曲線和ROC曲線的區別
? 當正負樣本的分布發生變化時,ROC曲線形狀基本保持不變,P-R曲線會發生劇烈變化。但是,在正負樣本分布極不均勻的情況下,P-R曲線比ROC曲線更能有效反應分類的好壞。
3.WOE.IV值
? WOE和IV主要用來判斷變量的預測強度,比如判斷用戶收入對用戶是否會發生逾期的預測強度。因此,兩個值的使用主要是在有監督的分類問題中,具體可以細化到如下方面:
指導變量離散化。在建模過程中,時常需要對連續變量進行離散化處理,如將年齡進行分段。但是變量不同的離散化結果(如:年齡分為[0-20]還是[0-15])會對模型產生不同影響。因此,可以根據指標所反應的預測強度,調整變量離散化結果。(對一些取值很多的分類變量,在需要時也可以對其進行再分組,實現降維。)
變量篩選。我們需要選取比較重要的變量加入模型,預測強度可以作為我們判斷變量是否重要的一個依據。
? WOE的全稱是“Weight of Evidence”,即證據權重。WOE是對原始自變量的一種編碼形式。要對一個變量進行WOE編碼,需要首先把這個變量進行分組處理(也叫離散化、分箱等等,說的都是一個意思)。下面以german credit數據來解釋WOE及后面的IV值,選取savings這個分類字段進行相應解釋,此字段共有5個取值,每個取值代表一個分組,每個分組中好壞樣本數如下,其中0代表未違約,1代表違約:
| A61 | 386 | 217 | 603 |
| A62 | 69 | 34 | 103 |
| A63 | 52 | 11 | 63 |
| A64 | 42 | 6 | 48 |
| A65 | 151 | 32 | 183 |
| 總計 | 700 | 300 | 1000 |
WOE公式如下:
WOEi=lnP(yi)P(ni)=lnyiyninWOE_i=ln\frac{P(y_i)}{P(n_i)}=ln\frac{\frac{y_i}{y}}{\frac{n_i}{n}}WOEi?=lnP(ni?)P(yi?)?=lnnni??yyi???
P(yi)代表第i組中,違約樣本占所有違約樣本的比例;
P(ni)代表第i組中,未違約樣本占所有未違約樣本比例;
y:所有違約樣本數;
n:所有未違約樣本數。
? 經過變換,上述式子可以變為
WOEi=lnyiniynWOE_i=ln\frac{\frac{y_i}{n_i}}{\frac{y}{n}}WOEi?=lnny?ni?yi???
| A61 | 386 | 217 | 603 | 0.271 |
| A62 | 69 | 34 | 103 | 0.14 |
| A63 | 52 | 11 | 63 | -0.706 |
| A64 | 42 | 6 | 48 | -1.099 |
| A65 | 151 | 32 | 183 | -0.704 |
| 總計 | 700 | 300 | 1000 |
? 以變量取A61時為例,對應的woe=ln((217/300)/(386/700))。 即每一組中壞樣本比例除以好樣本比例。在大于0部分(說明壞樣本比例大于好樣本比例),WOE越大,說明壞樣本比例比好樣本比例大得越多,即分組中存在壞樣本的可能性越大;小于0部分(壞樣本比例小于好樣本比例),WOE越小,說明壞樣本比例比好樣本比例小得越多,即分組中存在好樣本的可能性越大)。總結下來,WOE越小好樣本可能性越大。
? 但是,WOE沒有考慮分組中樣本占整體樣本的比例,如果一個分組的WOE值很高,但是樣本數占整體樣本數很低,則對變量整體預測的能力會下降。因此,我們還需要計算IV值。
? IV值考慮了分組中樣本占整體樣本的比例,相當于WOE的加權求和。具體計算公式如下:
IVi=(P(yi)?P(ni))?WOEi=(yiy?nin)lnyiyninIV_i=(P(y_i)-P(n_i))*WOE_i=(\frac{y_i}{y}-\frac{n_i}{n})ln\frac{\frac{y_i}{y}}{\frac{n_i}{n}}IVi?=(P(yi?)?P(ni?))?WOEi?=(yyi???nni??)lnnni??yyi???
| A61 | 386 | 217 | 603 | 0.271 | 0.047 |
| A62 | 69 | 34 | 103 | 0.14 | 0.002 |
| A63 | 52 | 11 | 63 | -0.706 | 0.027 |
| A64 | 42 | 6 | 48 | -1.099 | 0.044 |
| A65 | 151 | 32 | 183 | -0.704 | 0.077 |
| 總計 | 700 | 300 | 1000 | 0.197 |
? 有了一個變量各分組的IV值,我們就可以計算整個變量的IV值,方法很簡單,就是把各分組的IV相加:
IV=∑i=1nIViIV=\sum_{i=1}^nIV_iIV=i=1∑n?IVi?
其中,n為變量分組個數。
? IV值可以用來衡量自變量的預測能力。類似的指標還有信息增益、基尼系數等等。
4.K-S值
? KS曲線是用來衡量分類型模型準確度的工具。KS曲線與ROC曲線非常的類似。KS曲線是兩條線,其橫軸是閾值,縱軸是TPR與FPR。兩條曲線之間之間相距最遠的地方對應的閾值,就是最能劃分模型的閾值。
KS的計算步驟如下:
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-8nWcFOAe-1575456885845)(./image/K-S值.png)]
? K-S指標衡量的是好壞樣本累計分部之間的差值。
好壞樣本累計差異越大,KS指標越大,那么模型的風險區分能力越強。
KS曲線與ROC曲線的區別
? KS曲線就是把ROC曲線由原先的一條曲線拆解成了兩條曲線。原先ROC的橫軸與縱軸都在KS中變成了縱軸,而橫軸變成了不同的閾值。
5.PSI,CSI
PSI
? PSI又叫作群體穩定性指標,常用來篩選特征變量、評估模型穩定性。公式如下:
PSI=∑i=1n(Ai?Ei)?ln(Ai/Ei)PSI=\sum_{i=1}^n(A_i-E_i)*ln(A_i/E_i)PSI=i=1∑n?(Ai??Ei?)?ln(Ai?/Ei?)
AiA_iAi?表示實際占比,EiE_iEi?表示預期占比。
? 通常,以訓練樣本作為預期分布占比,驗證樣本作為實際分布占比。
| 0-200 | 20% | 10% | 10% | 0.875 | 0.0013 |
| 200-300 | 30% | 20% | 10% | 0.8000 | 0.0045 |
| 300+ | 50% | 70% | -20% | 1.1111 | 0.00111 |
| 總計 | 0.0069 |
? PSI數值越小,兩個分布之間的差異就越小,代表越穩定。
[外鏈圖片轉存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-i2lb7dzw-1575456885846)(./image/PSI.jpg)]
? 模型部署上線后,通常用PSI曲線報表觀察模型的穩定性。通過保證入模變量穩定性來進行變量監控,保證模型分數穩定性來進行模型監控。
根據建模經驗,給出一些建議:
轉自https://zhuanlan.zhihu.com/p/79682292
CSI
? CSI又叫作特征穩定性指標,能幫助理解入模特征變量對模型分數波動的影響,以及背后的客群分布偏移原因。這對風控模型不穩定時追溯定位原因具有重要意義。
CSI=∑i=1n(Distr_Ai?Distr_Ei)?partial_ScoreiCSI=\sum_{i=1}^n(Distr\_A_i-Distr\_E_i)*partial\_Score_iCSI=i=1∑n?(Distr_Ai??Distr_Ei?)?partial_Scorei?
Distr_AiDistr\_A_iDistr_Ai?表示實際占比,Distr_EiDistr\_E_iDistr_Ei?表示預期占比。
關于CSI,注意以下幾點:
PSI和CSI的區別
風控模型不穩定時的排查方向
? 當通過PSI指標發現模型不穩定時,我們該如何去排查原因?引起模型不穩定的因素是多種多樣的,主要包括:
申貸客群變化:獲客渠道一般決定了客群質量,我們只是從客群的有限特征維度來大致判斷是否變化,但這只是有偏判斷,因為無法完全獲知用戶畫像。當然,在獲客階段也會做前置風控,預先篩選流量,以及保證客群的穩定。
數據源不穩定:先從CSI指標觀察入模特征的分數漂移,對于影響較大和偏移較大的變量予以重點關注。再從數據源上確認采集是否可靠,比如數據服務商是否正常提供、接口是否正常工作、網關數據傳輸過程是否正常等。
特征邏輯有誤:在模型上線時,特征邏輯可能沒有確認清楚,導致上線后出現意想不到的問題。因此,需要將入模特征的邏輯再次予以Review。
其他相關原因:模型監控報表是否正確計算?線上依賴于離線T+1產出的數據是否正常調度?特征缺失值處理邏輯?
轉自https://zhuanlan.zhihu.com/p/86559671
6.Lift曲線
? Lift是評估一個預測模型是否有效的一個度量;它衡量的是一個模型(或規則)對目標中“響應”的預測能力優于隨機選擇的倍數,以1為界線,大于1的Lift表示該模型或規則比隨機選擇捕捉了更多的“響應”,等于1的Lift表示該模型的表現獨立于隨機選擇,小于1則表示該模型或規則比隨機選擇捕捉了更少的“響應”。Lift計算公式:
Lift=TPTP+FPTP+FNTP+FP+TN+FN=查準率正例占比Lift=\frac{\frac{TP}{TP+FP}}{\frac{TP+FN}{TP+FP+TN+FN}}=\frac{查準率}{正例占比}Lift=TP+FP+TN+FNTP+FN?TP+FPTP??=正例占比查準率?
? Lift指標可以這樣理解:在不使用模型的情況下,我們用先驗概率估計正例的比例,即上式分母部分,以此作為正例的命中率;利用模型后,我們不需要從整個樣本中來挑選正例,只需要從我們預測為正例的那個樣本的子集{TP+FP}中挑選正例,這時正例的命中率為查準率 ,后者除以前者即可得提升值Lift。
下表是一個提升表(Lift Table)的示例:
? Decile表示分數段,Obs表示不使用評分卡,用隨機選擇方法覆蓋到的壞客戶占比,等價于該組觀測數占總觀測數的比例(分子分母同時乘以樣本整體的壞賬率)。Bad表示使用評分卡得到的壞客戶占比。
以分數段為橫軸,以提升度為縱軸,可繪制出累計提升圖,示例如下:
? Lift曲線的右半部分應該盡量陡峭,因為越陡峭說明低分段中的Bad占比越大,模型的區分能力越好。
作者:Labryant 著作權歸作者所有。轉載請注明出處。
總結
- 上一篇: 数据挖掘比赛模板
- 下一篇: 关于催收那些事儿(下)