聊一聊评分模型校准
? ? ? ?最近想整理一下關(guān)于信用評分校準(zhǔn)的一些知識,發(fā)現(xiàn)求是汪老師的文章已經(jīng)很詳細(xì)、全面地介紹了這塊的內(nèi)容,于是仔細(xì)讀了一遍他的文章,并對其中的重點(diǎn)作一下筆記。求是汪老師的文章鏈接是信用評分卡模型分?jǐn)?shù)校準(zhǔn)。
?
一.分?jǐn)?shù)校準(zhǔn)的業(yè)務(wù)應(yīng)用場景
? ? ? 分?jǐn)?shù)校準(zhǔn)主要應(yīng)用在3種場景下。
? ? ? 1.分群子評分卡作分?jǐn)?shù)融合。
? ? ? 2.降級備用模型和主模型分?jǐn)?shù)校準(zhǔn)。
? ? ? 3.客群變化對原模型分?jǐn)?shù)進(jìn)行修正。
? ? ? ? 其實(shí)還有一種情況需要校準(zhǔn)模型,就是對樣本進(jìn)行抽樣建模之后需要對違約概率作校準(zhǔn)之后再映射成評分。其本質(zhì)和上面第3種情況是一樣的,都是開發(fā)樣本的Odds與實(shí)際樣本的Odds不一致,導(dǎo)致開發(fā)樣本的壞樣本占與比實(shí)際情況不一致。
?
二.概率分?jǐn)?shù)校準(zhǔn)的方法
? ? ? ?概率分?jǐn)?shù)校準(zhǔn)的方法主要有兩種。
? ? ? ?1.Platt scaling使用LR模型對模型輸出的值做擬合。適用于上 述場景1和場景2。
? ? ? ?2.評分卡分?jǐn)?shù)的錯誤分配。適用于上述場景3。
? ? ? ?對于方法一,比如現(xiàn)在有兩個分?jǐn)?shù)score1和score2,各分?jǐn)?shù)段代表的違約概率不一致,需要進(jìn)行校準(zhǔn)。將score1和樣本的y標(biāo)簽進(jìn)行邏輯回歸輸出概率值score1_cal,將score2和樣本的y標(biāo)簽進(jìn)行邏輯回歸輸出概率值score2_cal。score1_cal和score2_cal就在同一尺度上了。
? ? ? ?深入思考的話,由于邏輯回歸本質(zhì)上就是將違約概率p、對數(shù)幾率odds以及信用分?jǐn)?shù)進(jìn)行映射,如果映射過程中指定的Pdo、P0、odds都是一致的話,評分卡的尺度就是一致的,這種情況下不需要進(jìn)行校準(zhǔn)。即評分卡只要將概率轉(zhuǎn)化為分?jǐn)?shù)時ln(odds)-score關(guān)系是一致,則無需進(jìn)行校準(zhǔn)。如果子模型使用的是集成學(xué)習(xí)方法,則需要進(jìn)行校準(zhǔn),校準(zhǔn)的方法是針對每個seg的xgb_score進(jìn)行LR校準(zhǔn),校準(zhǔn)完之后在整體校準(zhǔn)完之后的分?jǐn)?shù)定cutoff。因?yàn)椴呗砸话阒魂P(guān)注最終輸出分?jǐn)?shù)。當(dāng)然,策略會根據(jù)自己的人群標(biāo)簽再做交叉分析。
? ? ? ?對于方法二,基于的理論依據(jù)是LR中的截距近似于開發(fā)樣本的ln(Odds),先通過一個案例來學(xué)習(xí)此方法,案例來源原來評分卡模型的概率是這么校準(zhǔn)的!
? ? ? ? 一個評分卡經(jīng)過抽樣或者客群發(fā)生偏移,開發(fā)樣本的壞樣本率為10%,評分卡模型建模樣本各分?jǐn)?shù)段的好壞分布如下:
? ? ? ?實(shí)際上該產(chǎn)品的違約率只有2%左右,那么這個壞樣本占比會比產(chǎn)品上線后實(shí)際落在該分?jǐn)?shù)段的壞樣本占比要高得多。要還原真實(shí)的情況,需要進(jìn)行如下校準(zhǔn):
? ? ? ?概括一下,即將實(shí)際開發(fā)樣本的ln(odds),即LR中的截距,加一個ln(odds1/odds)后再進(jìn)行sigmoid轉(zhuǎn)換。ln(odds1)是抽樣前真實(shí)好壞比或者目前樣本的好壞比。具體的理論依據(jù)如下:
? ? ? ?可以這樣理解上面的過程,邏輯回歸擬合出來的截距是約等于ln(odds)的,因此開發(fā)樣本擬合出來的截距是開發(fā)樣本的ln(odds),實(shí)際樣本的截距應(yīng)該是實(shí)際樣本的ln(odds1),現(xiàn)在需要將開發(fā)樣本的ln(odds)調(diào)整到實(shí)際樣本的ln(odds1)上面,則需要-ln(odds)+ln(odds1),即再加上一個ln(odd1s/odds)。這樣解釋比較容易理解。
?
三.一些其它的啟發(fā)(來源于文章評論)
1.邏輯回歸擬合出來的截距為什么等于ln(odds)?
? ? ? ?這個問題求是汪老師的另一篇文章樣本權(quán)重對邏輯回歸評分卡的影響探討有寫到:
?
2.LR的輸出概率可以認(rèn)為是真實(shí)概率,而其他分類器的輸出概率并不反映真實(shí)概率?
? ? ? ? lr輸出概率的分布往往是正態(tài)分布,這是因?yàn)樽宰兞恐g相互獨(dú)立;(多個獨(dú)立統(tǒng)計(jì)量的和的平均值,符合正態(tài)分布);xgb這些模型由于沒有做相關(guān)性篩選,入模變量相關(guān)性比較高,因此輸出概率分布一般服從長尾分布(如果各種因素對結(jié)果的影響不是相加,而是相乘,那么最終結(jié)果不是正態(tài)分布,而是對數(shù)正態(tài)分布)
?
3.分群導(dǎo)致各seg的odds不同,即LR的截距不同,會有什么影響?
? ? ? ?分群的目的就是讓不同的seg的odds存在差異化。從貝葉斯角度看,lr中截距項(xiàng)對應(yīng)總體的odds,所以不同seg訓(xùn)練的lr的截距必然有差異。通過PDO尺度變換后,這個截距對應(yīng)正態(tài)分布的均值。不同seg的分布放在一起看會有重疊,但不會完全一致,否則分群就失去了意義。
【作者】:Labryant ?
【原創(chuàng)公眾號】:風(fēng)控獵人 ?
【簡介】:某創(chuàng)業(yè)公司策略分析師,積極上進(jìn),努力提升。乾坤未定,你我都是黑馬。 ?
【轉(zhuǎn)載說明】:轉(zhuǎn)載請說明出處,謝謝合作!~
?
?
總結(jié)