第六章 模型的验证、监控与调优
模型的驗證、監控與調優
簡介:得到評分卡模型后,還需要驗證模型的性能。并且部署后還要持續監測模型的表現。
目錄:
- 模型的區分度
- 模型的預測性與混淆矩陣
- 模型的平穩性
- 模型的調優
區分度的概念
評分模型的作用是通過分數將好壞人群進行區分。從分數的性質可以看出,好的評分模型下違約人群的分數低、非違約人群的分數高。反之壞的評分模型下違約與非違約人群的分數是幾乎無法區分的。在理想模型里,所有非違約人群的評分均高于違約人群。但在現實場景中無法達到這樣的理想狀態。因此我們需要借助某些統計量來衡量好壞人群分數的差異性,即評分模型的區分能力。
- 區分度的度量
從量化角度來說,我們需要找出一個指標來衡量分數對好壞樣本的區分度,這樣的一個指標需要滿足一定的性質:
- 與區分能力單調相關,即指標越高(或越低)說明區分能力越強
- 與好壞樣本的占比不相關。即在好、壞樣本分層抽樣的情況下依然不會發生顯著的改變。例如,當好壞樣本從100:1進行采樣后變為10:1,度量指標依然不會發生顯著的改變
一般可以從以下幾個方面衡量模型的區分度:
?
- 從分布的差異性看區分度-KS值
最直接的辦法就是檢驗在評分的意義下兩類樣本的分布的差異性。在非參統計學里有多種指標可以計算兩類樣本的分布的差異性,最常用的就是KS(Kolmogorov-Smirnov)值。
?
分布的差異性看區分度-KS值(續)
需要注意的是,計算KS時需要將分數從低分到高分進行排序。這是因為評分模型中,違約人群的分數低于非違約人群。因此在低分段時,違約人群的累計速度會高于非違約人群。
正常情況下KS的范圍是0~100%。當評分模型的結果與預期相反,即壞樣本得分高于好樣本時,KS為負。
KS越高,說明評分模型對好壞人群的區分能力越強。通常要求KS在訓練樣本上超過40%,在訓練樣本以及部署后超過30%。
KS對應的分數可以作為切分點(cut-off point)的選擇之一。當兩個模型在同一個樣本集上的KS相等或者接近時,推薦使用切分點較小的模型。
?
- 從分布的差異性看區分度-Gini Score
除了KS值之外,還可以通過Gini Score來評估區分度:
先將樣本分為若干組,再計算每組的壞樣本率,進而得到Gini Score。Gini Score越小說明區分度越強。
需要注意的是:
- 從樣本距離看區分度-散度(Divergence)
在機器學習模型和統計學模型中,"距離"是頻繁使用的度量之一,用以衡量單個樣本或者樣本集的差異。同樣的,在評分模型中我們也可以計算好壞樣本的距離來檢驗分數的區分度:
和分別表示好壞樣本的評分均值,和分別表示好壞樣本的評分的方差。
注意:
模型的預測性
除了區分度之外,預測性也是評分模型重要的評估性能之一。與其他預測模型不用評分模型預測的準確性并不是簡單地評估有多少樣本能被正確地分類。
考慮以下場景:有1000個樣本,其中有10個違約樣本,其他都是非違約的。現在某模型將所有的樣本都預測為非違約。在這樣的情況下,分類正確率為(1000-10)/1000=99%.
從正確率的角度看,該模型的預測性是很強的。但是,該模型未能識別出任何一例違約樣本,對信用風控是沒有幫助的。我們需要尋找出可以正確評估模型預測性的指標。
兩類錯誤
Type I:將好樣本預測為壞樣本
Type II:將壞樣本預測為好樣本
兩類錯誤的代價是不同的。通常第二類錯誤的代價高于第一類。
- 混淆矩陣(confusion matrix)
在評分模型中,混淆矩陣及其衍生量是在二分類(或多分類)場景中常用的預測性能度量的工具。混淆矩陣的作用是細分了上一頁陳述的兩類錯誤。二分類下的混淆矩陣是:
?
其中,對角線的值是預測正確的值;FP和FN表示第一類和第二類錯誤
在評分模型中,我們用正例代表違約類別,用反例代表非違約類別
- 混淆矩陣(續)
在混淆矩陣的基礎之上,我們衍生出一些常用的性能指標
,所有被預測為違約的樣本中,真正違約的比例
,所有真正違約的樣本中,能被模型檢測出來的比例
我們希望和都能達到很高的數值。但是在非理想的情況下,二者是不能同時增大的。例如,當我們認為所有的樣本都是違約樣本時,Recall達到最大,但是Precision很小。或者,當我們認為評分最低的那些樣本是違約樣本時,Precision很高但是Recall很小。
綜合了Precision和Recall兩個指標。
- ROC與AUC
但是上述的混淆矩陣是用于預測結果為類別的模型(例如SVM或者決策樹)。評分模型的輸出是分數(或概率,二者等價)。此時不能直接將輸出結果用來構建混淆矩陣。解決辦法是,先用分數與某一閾值做比較。低于閾值的樣本被分為違約樣本,反之則是非違約樣本。任何一個閾值下都能建立相應的混淆矩陣,繼而可以計算出Precision,Recall,F1或其他指標。將不同閾值下的性能指標用曲線圖的方式展現出來是一個好的評估手段。ROC曲線是其中的一種常用的度量曲線,描述的是TPR和FPR在不同閾值下的變化情況。
FRP反映的是所有被預測為違約樣本中,真實為非違約樣本的比例。
類似的,我們希望TPR達到最大100%,同時FPR達到最小0%。此時意味著所有的違約樣本都能被識別出來,而沒有非違約樣本被誤判。但只有理想模型才能達到這種效果。
比較好的評分模型意味著當FPR較低時,TPR能相對達到比較大的值。反映在ROC曲線上,就是曲線盡可能的靠近(0,1)點。
壞的模型意味著好壞樣本均勻散落在全部評分中,即TPR和FPR的增長速率相近。此時ROC曲線近似對角線。該模型近似隨機判別的模型。
更壞的模型則將違約樣本給予高分,將非違約樣給予低分,此時ROC曲線低于對角線。
如何衡量ROC與(0,1)接近的程度呢?曲線下的面積是較好的度量工具。該面積被稱為AUC(Area Under Curve)。當AUC較大時,說明模型的預測能力很強。通常用70%作為評估AUC的閾值。
?
- 模型的預測性和區分性的總結
需要注意的是,在衡量模型的預測性和區分性的時候,需要知道樣本的違約標簽,意味著需要等待一個完整的表現期。如果表現期定位1年,則現在只能衡量模型在1年前的預測性和區分性。
?
- 平穩性
評分模型追求平穩性,即當信貸產品、客群、宏觀經濟、監管政策等沒有發生大的變化時,在不同客群或者相同客群不同時間上的評分的結果應該相對保持穩定。由于評分卡模型的入模變量已經經過分箱處理,消除了有細微的變化對評分結果帶來的影響,因此"隨機性"的因素已經得到了一定的控制。在這樣的情況下,如果評分結果發生較激烈的變化,說明模型的平穩性發生弱化。
在評分模型中,通常用PSI指標來衡量模型的平穩性。計算如下:
同一個評分模型在兩份樣本(比如,同一個信貸產品在不同月份的申請人群的得分)上比較分布的平穩性。將兩份樣本分各自為K組,計算每組在各自總體中的比例,設為。
PSI越低說明兩組樣本上的分數越接近。
注:
- 常用的閾值為25%。高于25%說明模型的平穩性發生弱化。
- PSI同時也受到分組方式的影響。一般來說分地越細,PSI越低。
- PSI的計算與好、壞標簽無關,因此不需要積累一個完整的表現期。
4.模型的調優
- 模型調優的必要性
模型需要進行必要的調優,當遇到如下情形時:
1,監控結果不滿足要求
- 連續3個月的KS低于30%,AUC低于70%,PSI高于25%
2,產品發生變化
- 額度提高,周期提高,利率降低
3,人群發生變化
- 準入政策發生變化
4,其他宏觀因素發生變化
- 特征層面的調整
特征層面的調整通常分為2種:
1,舍棄或者新增特征
例如:舍棄"過去6個月的跨銀行申請次數",新增"過去3個月的跨銀行申請次數"
2,調整特征計算方法或者分箱方法
例如:對年齡進行重新分箱
調整的原則是:
當變量的PSI顯著升高,或者IV顯著降低時,需要做調整
- 分數層面的調整
根據新的樣本和(或)調整后的特征,重新進行模型訓練,估計模型參數
要求:
- 新模型的KS、AUC等指標不低于原有模型以及30%和70%的標準
- PSI不高于原有模型以及25%的標準
總結
以上是生活随笔為你收集整理的第六章 模型的验证、监控与调优的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 第五章 逻辑回归模型在评分卡开发中的应用
- 下一篇: 伪分布集群搭建