【采用】信贷业务风控逾期指标及风控模型评估指标
一、互聯網金融中需要關注的風控逾期指標
1.逾期天數 DPD (Days Past Due)
自應還日次日起到實還日期間的日期數
舉例:DPDN+表示逾期天數 >=N天,如DPD30+表逾期天數 >=30天的合同
2.逾期期數
自應還日次日起到實還日期間的日期數
舉例:
正常資產用C表示
Mn表示逾期N期:M1逾期一期,M2逾期二期,M3逾期三期,M4逾期四期,M5逾期五期,M6逾期六期
Mn+表示逾期N期(含)以上,M7+表示逾期期數 >=M7
3.貸款余額 ENR
至某時點借款人尚未償還的本金,即:全部剩余本金作為貸款余額
4.月均貸款余額 ANR
月均貸款余額 = (月初貸款余額 + 月末貸款余額)/2,月初貸款余額即上月月底貸款余額
5.C,M1,M2,M3…的貸款余額
根據逾期期數(C,M1,M2,M3…),計算每條借款的當時的貸款余額
貸款余額 = 放款時合同額 –已還本金
已還本金 = (放款日次日 ~ T-1)的還款本金總額
6.核銷金額
貸款逾期M7后經審核進行銷帳,核銷金額即在核銷日期當天的貸款余額
7.回收金額 Recovery
來自歷史所有已核銷合同的全部實收金額
8.凈壞賬 NCL
當月新增核銷金額 – 當月回收金額
9.在賬月份 MOB
放款后的月份
舉例:
MOB0,放款日至當月月底
MOB1,放款后第二個完整月份
MOB2,放款后第三個完整月份
10.(C->M1、M1->M2、M2->M3、M3->M4、M4->M5、M5->M6)滾動率 Flow rate
舉例:
C-M1=當月進入M1的貸款余額/上月末C的貸款余額
M2-M3=當月進入M3的貸款余額/上月末M2的貸款余額
11.逾期率Coin?%、Coin(M1)%、Coin(M2)%、Coin(M3)%、Coin(M4)%、Coin(M5)%、Coin(M6)%
當月不同逾期期數的貸款余額/當月底總貸款余額
舉例:
Coin?%=當月C貸款余額/當月底貸款余額(C-M6)
Coin(M1)%=當月M1貸款余額/當月底貸款余額(C-M6)
Coin(M1+)%=當月M1?M6貸款余額/當月底貸款余額(C-M6)
12.逾期率Lagged(M1)%、Lagged(M2)%、Lagged(M3)%、Lagged(M4)%、Lagged(M5)%、Lagged(M6)%
當月不同逾期期數的貸款余額/往前推N個月的總貸款余額
舉例:
Lagged(M1)%=當月M1的貸款余額/上個月底的貸款余額(C~M6)
Lagged(M4)%=當月M4的貸款余額/往前推四期的 總貸款余額
Lagged(M4+)%=當月M4的貸款余額/往前推四期的總貸款余額
+ 當月M5的貸款余額/往前推五期的總貸款
+ 當月M6的貸款余額/往前推六期的總貸款余額
13.賬齡分析Vintage
統計每個月新增放款在之后各月的逾期情況
解讀模型評估指標
在建好模型后,我們需要對模型的質量進行評估。模型中常見的分類模型評估指標一般是通過混淆矩陣計算而來。
二、解讀模型評估指標
模型評估之 — 混淆矩陣
混淆矩陣
TP(實際為正預測為正),FP(實際為負但預測為正),TN(實際為負預測為負),FN(實際為正但預測為負)
通過混淆矩陣我們可以給出各指標的值:
召回率(Recall,TNR):預測對的正例數占真正的正例數的比率計算公式:
Recall=TP / (TP+FN)
準確率:反映分類器統對整個樣本的判定能力,能將正的判定為正,負的判定為負,計算公式:
Accuracy=(TP+TN) / (TP+FP+TN+FN)
精準率:指的是所得數值與真實值之間的精確程度;預測正確的正例數占預測為正例總量的比率,計算公式:
Precision=TP / (TP+FP)
陰性預測值:陰性預測值被預測準確的比例,計算公式:
NPV=TN / (TN+FN)
F值:F-score是Precision和Recall加權調和平均數,并假設兩者一樣重要,計算公式:
F1 Score=(2RecallPrecision) / (Recall+Precision)
模型評估之 — ROC圖和AUC
ROC曲線說明:
Sensitivity=正確預測到的正例數/實際正例總數
1-Specificity=正確預測到的負例數/實際負例總數
縱坐標為Sensitivity(True Positive Rate),橫坐標為1-Specificity(True Negative Rate),ROC 曲線則是不同閾值下Sensitivity和1-Specificity的軌跡。
**閾值:**閾值就是一個分界線,用于判定正負例的,在模型預測后我們會給每條預測數據進行打分(0<score<1)。如:指定閾值為0.6,那么評分低于0.6的會被判定為負例(不好的),評分高于0.6的即會判定為正例(好的),隨著閾值的減小,判定為正例的樣本相應地就會增加。
**AUC(Area Under the ROC Curve)**指標在模型評估階段常被用作最重要的評估指標來衡量模型的準確性,橫坐標為其中隨機分類的模型AUC為0.5,所以模型的AUC基線值大于0.5才有意義。
模型的ROC曲線越遠離對角線,說明模型效果越好,ROC曲線下的區域面積即為AUC值,AUC值越接近1模型的效果越好。隨著閾值的減小,Sensitivity和1-Specificity也相應增加,所以ROC曲線呈遞增態勢。
roc
評估指標之 — Lift提升圖
Lift =[TP/(TP+FP)] / [(TP+FN)/(TP+FP+FN+TN)] = PV_plus / pi1,它衡量的是,與不利用模型相比,模型的預測能力“變好”了多少,lift(提升指數)越大,模型的運行效果越好。
不利用模型,我們只能利用“正例的比例是(TP+FN)/(TP+FP+FN+TN)”這個樣本信息來估計正例的比例(baseline model),而利用模型之后,我們不需要從整個樣本中來挑選正例,只需要從我們預測為正例的那個樣本的子集TP+FP中挑選正例,這時預測的準確率PV_plus(Precision)為TP/(TP+FP)。
lift圖
上圖的縱坐標是lift,橫坐標是正例集百分比。隨著閾值的減小,更多的客戶就會被歸為正例,也就是預測成正例的比例變大。當閾值設得夠大,只有一小部分觀測值會歸為正例,但這一小部分一定是最具有正例特征的觀測值集合(用前面銀行向客戶推薦信用卡的例子來看,這一部分人群對推薦的反應最為活躍),所以在這個設置下,對應的lift值最大。同樣,當閾值設定得足夠的小,那么幾乎所有的觀測值都會被歸為正例(占比幾乎為100%)——這時分類的效果就跟baseline model差不多了,相對應的lift值就接近于1。
ROC曲線和lift曲線都能夠評價邏輯回歸模型的效果:類似信用評分的場景,希望能夠盡可能完全地識別出有違約風險的客戶,選擇ROC曲線及相應的AUC作為指標;
類似數據庫精確營銷的場景,希望能夠通過對全體消費者的分類而得到具有較高響應率的客戶群從而提高投入產出比,選擇lift曲線作為指標;
評估指標 — Gain增益圖
Gains(增益) 與 Lift (提升)類似:Lift 曲線是不同閾值下Lift和Depth的軌跡,Gain曲線則是不同閾值下PV_plus和Depth的軌跡,而PV_plus=Lift*pi1= TP/TP+FP,所以它們顯而易見的區別就在于縱軸刻度的不同。
增益圖是描述整體精準率的指標。按照模型預測出的概率從高到低排列,將每一個百分位數內的精準率指標標注在圖形區域內,就形成了非累積的增益圖。如果對每一個百分位及其之前的精準率求和,并將值標注在圖形區域內,則形成累積的增益圖。
模型評估之 — K-S圖
正樣本洛倫茲曲線記為f(x),負樣本洛倫茲曲線記為g(x),K-S曲線實際上是f(x)與g(x)的差值曲線。K-S曲線的最高點(最大值)定義為KS值,KS值越大,模型分值的區分度越好,KS值為0代表是最沒有區分度的隨機模型。準確的來說,K-S是用來度量陽性與陰性分類區分程度的。
k-s圖
其實通常在實際使用的過程中,我們大多數都是通過AUC指標和Recall召回率來判斷一個二分類模型的。
?
總結
以上是生活随笔為你收集整理的【采用】信贷业务风控逾期指标及风控模型评估指标的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【采用】互联网反欺诈体系建设
- 下一篇: 【采用】如何搭建反欺诈策略与模型