原来评分卡模型的概率是这么校准的!
在建立評(píng)分卡模型的時(shí)候,往往建模樣本的好壞比和實(shí)際情況是不一致的,這是因?yàn)?#xff1a;
?
1. 產(chǎn)品本身壞樣本較少,為了提高評(píng)分模型的敏感程度,會(huì)對(duì)壞樣本進(jìn)行過抽樣或者好樣本進(jìn)行欠抽樣;
2. 如果是乙方公司,好壞樣本的來源可能不同,或者甲方爸爸并沒有全量反饋樣本表現(xiàn),那么自然樣本中的好壞比無法反映真實(shí)的情況。
?
然而,用一個(gè)好壞比失真的樣本建立好評(píng)分卡模型后,如果想要計(jì)算每個(gè)分?jǐn)?shù)段的壞樣本率,得出來的結(jié)果是會(huì)大于真實(shí)情況的。原因很簡(jiǎn)單,邏輯回歸中的截距是約等于好壞比的對(duì)數(shù)的(因?yàn)樵u(píng)分卡模型預(yù)測(cè)的是該樣本為壞樣本的概率,因此使用的是壞:好)。如果樣本的壞樣本占比比實(shí)際情況要高,那么模型預(yù)測(cè)出來的每個(gè)樣本的違約概率都會(huì)偏大。那么想要還原每個(gè)客戶真實(shí)的違約概率,就需要進(jìn)行一個(gè)概率校準(zhǔn)。
?
校準(zhǔn)的方式也非常簡(jiǎn)單。首先我們需要一個(gè)目標(biāo)好壞比odds1,它可以是進(jìn)行過抽樣/欠抽樣前產(chǎn)品真實(shí)的好壞比(對(duì)應(yīng)上面情況1),也可以是行業(yè)平均水平(對(duì)應(yīng)上面情況2)。如果建模樣本的實(shí)際好壞比是odds的話,那么我們只需要在邏輯回歸擬合出來的截距上再加一個(gè)ln(odds1/odds)即可(這一步發(fā)生在sigmoid函數(shù)轉(zhuǎn)換前)。
?
這種校準(zhǔn)方法在直觀上也非常好理解,因?yàn)閘n(odds1/odds)是等于ln(odds1)-ln(odds)的,而前面也提到過,邏輯回歸擬合出來的截距是約等于ln(odds)的,那么在截距上再加上ln(odds1/odds),相當(dāng)于只是把ln(odds)抵消掉,變成了實(shí)際好壞比ln(odds1)而已。
?
然而這只是每個(gè)客戶違約概率的校準(zhǔn),即使是校準(zhǔn)后,如果計(jì)算每個(gè)分?jǐn)?shù)段的好壞比,依然會(huì)被打回原形。這是因?yàn)檫@個(gè)過程雖然校準(zhǔn)了每個(gè)客戶違約概率的值,但是并不會(huì)改變?cè)u(píng)分模型的排序順序。因此對(duì)計(jì)算出來的好壞比,也要有一個(gè)校準(zhǔn)的過程:對(duì)好壞比進(jìn)行一個(gè)sigmoid的反函數(shù),加上ln(odds1/odds),再用sigmoid函數(shù)運(yùn)算回來,這樣得出的好壞比就是接近真實(shí)情況的好壞比了。
?
下面舉一個(gè)例子,某評(píng)分卡模型建模樣本各分?jǐn)?shù)段的好壞分布如下:
?
?
而我們抽樣前or根據(jù)經(jīng)驗(yàn),實(shí)際上該產(chǎn)品的違約率只有2%左右,那么這個(gè)壞樣本占比會(huì)比產(chǎn)品上線后實(shí)際落在該分?jǐn)?shù)段的壞樣本占比要高得多。要還原真實(shí)的情況,需要進(jìn)行如下校準(zhǔn):
?
?
上圖中每一列的計(jì)算公式為:
A=ln(odds)
B=A+ln(odds1/odds)=A-1.6946
C=1/(1+exp(-B))
?
得出來的C列就是各分?jǐn)?shù)段預(yù)測(cè)出來的真實(shí)水平的違約概率了~
總結(jié)
以上是生活随笔為你收集整理的原来评分卡模型的概率是这么校准的!的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【待继续研究】除了专家模型,这两大模型也
- 下一篇: 模型验证的常用武器k-s