风控大咖教你四步开发风控模型
數(shù)信互融(IFRE):專注于互聯(lián)網(wǎng)金融領(lǐng)域的風(fēng)險(xiǎn)量化、資產(chǎn)定價(jià)?;诨ヂ?lián)網(wǎng)金融行業(yè)數(shù)據(jù),結(jié)合互聯(lián)網(wǎng)金融大數(shù)據(jù),應(yīng)用國際上專業(yè)化的分析手段,提供信用評估模型、決策引擎和資產(chǎn)證券化等服務(wù),幫助互聯(lián)網(wǎng)金融行業(yè)預(yù)測債權(quán)的風(fēng)險(xiǎn)溢價(jià)、實(shí)現(xiàn)資產(chǎn)定價(jià)以及解決互聯(lián)網(wǎng)金融行業(yè)資產(chǎn)流動(dòng)性問題。
“你的模型準(zhǔn)么?”
“你的模型真的有用么?”
“你的模型對風(fēng)控有價(jià)值么?”
在為P2P公司建立風(fēng)控評分模型過程中,這是最常見的問題。為了回答這一問題,我們想先討論下如何從實(shí)際業(yè)務(wù)出發(fā),以怎樣的開發(fā)流程才能建立一個(gè)有效、有用、有價(jià)值的模型,希望讀后能給你一定的啟發(fā)。
在互聯(lián)網(wǎng)金融風(fēng)控體系中,量化分析需要貫穿始終,評分卡模型是其中非常重要的一環(huán)。
在互聯(lián)網(wǎng)金融評分卡開發(fā)過程中,我們仔細(xì)研究了企業(yè)風(fēng)控操作流程,反復(fù)推敲了模型構(gòu)建步驟,最后我們認(rèn)為從業(yè)務(wù)應(yīng)用角度,評分卡開發(fā)應(yīng)用應(yīng)遵循:
業(yè)務(wù)定義 -> 風(fēng)險(xiǎn)定義-> 風(fēng)險(xiǎn)分解 -> 風(fēng)險(xiǎn)策略 這幾個(gè)步驟。
業(yè)務(wù)定義
為什么把業(yè)務(wù)定義放在最底層呢?
從商務(wù)智能的角度說,模型,評分,策略等都是為業(yè)務(wù)服務(wù)的,脫離了業(yè)務(wù)場景的模型和評分是無本之木,無源之水;脫離了業(yè)務(wù)場景談模型的準(zhǔn)確性,沒有意義。
不同的業(yè)務(wù)場景,產(chǎn)生了不同的數(shù)據(jù),不同的數(shù)據(jù)包含的規(guī)律,體現(xiàn)在數(shù)據(jù)分析中就是不同的模型、不同的參數(shù)和不同的評分。
比如,同樣是網(wǎng)上的個(gè)人信用貸款,主要包含個(gè)人和企業(yè)主兩大類客群。在中國,由于小微企業(yè)貸款困難,如果小微企業(yè)有了貸款需求,一般都是企業(yè)主以個(gè)人名義在網(wǎng)上貸款,但是這類客戶顯然是和普通個(gè)人信用貸款客戶是不同的,所以這類客戶的屬性信息一般都包含了一些企業(yè)的信息,如資產(chǎn),對公、對私流水等等。我們在做模型的時(shí)候,就會(huì)把他們分開:個(gè)人消費(fèi)信貸模型和企業(yè)主信貸模型,企業(yè)主模型會(huì)包含一些反應(yīng)小微企業(yè)財(cái)務(wù)狀況的變量。
但是互聯(lián)網(wǎng)金融所包含的業(yè)務(wù)種類遠(yuǎn)不止這兩個(gè),單純的信用貸款類,就有專門放貸給學(xué)生的學(xué)生貸;在朋友圈之內(nèi)貸款的朋友貸;給外企白領(lǐng)貸款的白領(lǐng)貸……
如果你拿學(xué)生貸的模型給農(nóng)民貸客戶來用,或者拿給上海白領(lǐng)開發(fā)的模型給甘肅、西藏的白領(lǐng)用會(huì)怎么樣呢? 我不說你也明白了。
業(yè)務(wù)定義之后,還有一個(gè)要求,即業(yè)務(wù)模式的穩(wěn)定性。即在一定時(shí)間范圍內(nèi),用于構(gòu)建模型的數(shù)據(jù)依賴的業(yè)務(wù)模式是相對沒有變化的,前后一致的。只有滿足這個(gè)條件,歷史數(shù)據(jù)模擬出來的模型,和后面的數(shù)據(jù)才是匹配的。這在學(xué)術(shù)上有個(gè)術(shù)語,穩(wěn)定性,Stationary/stability.
同理,我們也假設(shè),符合同一類屬性特征的個(gè)體,其表現(xiàn)行為也是一樣的,即打分相同的人,表現(xiàn)也相同。這也回答了有人提出的另一個(gè)問題“我以前從沒貸過款,也沒信用卡消費(fèi)記錄,能用你的模型打分么?”
風(fēng)險(xiǎn)定義
簡單地說就是判定哪些是好客戶,哪些是壞客戶。
互聯(lián)網(wǎng)金融業(yè)務(wù)模式的多樣性,導(dǎo)致了對好客戶和壞客戶的定義標(biāo)準(zhǔn)也不盡相同。 這里有人會(huì)問:“怎么會(huì)呢?欠錢不還的不就是壞客戶么。”好吧,我來舉個(gè)例子。
在我們清洗數(shù)據(jù)的時(shí)候,看到對客戶信用評價(jià)中有這么一類“少量逾期”,這個(gè)類別占了相當(dāng)大的比重,而且在模型中作用也比較顯著,和其它類別“信用好”“信用差”等比肩。
一開始我們的技術(shù)人員對這個(gè)“少量逾期”這個(gè)分類很疑惑,不能理解這個(gè)分類到底是好還是壞。直到我們和某P2P公司的風(fēng)控經(jīng)理實(shí)際交流后才明白這其中的含義。宋總說:“……在傳統(tǒng)銀行信用卡業(yè)務(wù)中,是很喜歡這類少量逾期的客戶的,因?yàn)樗麄兡芙o銀行創(chuàng)造罰息,但是又不是惡意違約那種客戶。但對于我們P2P公司來說,是不敢養(yǎng)這類客戶的,一旦有了逾期情況,就必須馬上采取措施……”
說到這里您可以明白了吧,“少量逾期”是傳統(tǒng)銀行信用卡業(yè)務(wù)中經(jīng)常出現(xiàn)的一個(gè)分類,而且算一個(gè)銀行比較喜歡的類別,但是你把它也用到互聯(lián)網(wǎng)金融試試?
風(fēng)險(xiǎn)分解
風(fēng)險(xiǎn)分解,就是用模型把目標(biāo)客戶分類。我們舉個(gè)例子:
某跨國IT北京研發(fā)的總裁,提到發(fā)生在自己身上的案例:由于家里有急事,臨時(shí)用錢,想申請某行的信用卡多給5萬額度,但是某行不批。為什么呢? 因?yàn)閯⒖傆眠@個(gè)卡主要是發(fā)工資的,每月到賬后,夫人就會(huì)把錢拿去購買理財(cái)產(chǎn)品。因此卡上一般沒多少錢。但是劉總是不是高風(fēng)險(xiǎn)客戶呢?
顯然,依據(jù)某行簡單的分類方法,劉總被劃為不能多給5萬額度的類別了。長此以往,類似劉總這類高質(zhì)量、低風(fēng)險(xiǎn)客戶就有可能流失。
因此,選擇正確的方法,合理分類,才能為進(jìn)一步采取合理的商業(yè)策略提供正確有力的數(shù)據(jù)支持。評分卡是其中一個(gè)比較有效的工具。
在信用風(fēng)險(xiǎn)管理領(lǐng)域,評分卡是簡便易行的風(fēng)險(xiǎn)管理工具。
什么是評分卡?
評分卡是綜合個(gè)人客戶的多個(gè)維度信息(如基本情況、償債能力、信用狀況等,重點(diǎn)關(guān)注償債能力、還款意愿),基于這些信息綜合運(yùn)用數(shù)學(xué)分析模型,給個(gè)人綜合評分,判斷違約的可能性的工具。
生活中存在許多“顯性”或“隱性”的“評分卡”。
例如:選購汽車--綜合價(jià)格、油耗、安全系數(shù)、性能、外觀等來因素。-> 買? 還是不買?
就分析方法發(fā)而言,現(xiàn)在分類算法有很多種,決策樹,邏輯回歸,支持向量機(jī),神經(jīng)網(wǎng)絡(luò)等等,都可以實(shí)現(xiàn)這個(gè)目的。在以后的文章中,我們會(huì)詳細(xì)講解一下數(shù)據(jù)和模型的匹配性。數(shù)據(jù)決定了用什么模型。
風(fēng)險(xiǎn)策略
在給客戶正確分類之后,即準(zhǔn)確地風(fēng)險(xiǎn)分類。我們就可以采取相應(yīng)的商務(wù)策略,優(yōu)化業(yè)務(wù):
- 流程簡化:通過模型對客戶分層,降低審核人員的工作量,提高審批速度。
- 風(fēng)控優(yōu)化:以客觀分?jǐn)?shù)代替主觀評斷,保證審批標(biāo)準(zhǔn)及風(fēng)險(xiǎn)偏好一致性。
- 風(fēng)險(xiǎn)定價(jià):按照模型計(jì)算的違約率進(jìn)行產(chǎn)品的定價(jià)。
以上是我們從業(yè)務(wù)角度談構(gòu)建互聯(lián)網(wǎng)金融評分卡模型的結(jié)構(gòu)。
在信用評分卡模型開發(fā)過程中,正態(tài)性是檢驗(yàn)?zāi)P托庞迷u分分布是否有效的一個(gè)重要指標(biāo)。正常情況下,標(biāo)準(zhǔn)的正態(tài)分布是單峰分布;但是在實(shí)際建模過程中,會(huì)遇到信用評分分布出現(xiàn)雙峰的情況。
雙峰分布出現(xiàn)時(shí),數(shù)據(jù)規(guī)律一致性的假設(shè)被打破,我們需要從不同的角度考察其出現(xiàn)雙峰分布的原因,對模型加以調(diào)整,使之準(zhǔn)確地反映業(yè)務(wù)和數(shù)據(jù)中的規(guī)律,以便模型準(zhǔn)確適用。
根據(jù)為數(shù)十家互聯(lián)網(wǎng)金融企業(yè)建立評分卡模型的實(shí)踐經(jīng)驗(yàn),我們總結(jié)了一些造成雙峰分布的因素。
本文將從業(yè)務(wù)模式、錄入系統(tǒng)變更和變量這三個(gè)角度,對信用評分分布的雙峰情況加以分析并解釋其出現(xiàn)的原因。通過實(shí)際案例,通過具體解決方案的分享,與讀者共同探討交流討論。
1
參考模型:違約模型(先息后本和等本等息的混合模型)
解釋角度:業(yè)務(wù)模式(或者叫好壞客戶定義模式)
根據(jù)項(xiàng)目初期的好壞客戶定義,評分分布如圖1所示。其中出現(xiàn)了雙峰分布。
圖1 信用評分分布直方圖
考慮到好壞客戶定義與實(shí)際業(yè)務(wù)模式相差較大且壞客戶占比過低,采取重新定義好壞客戶。新的評分分布直方圖如圖2所示。
圖2 更改好壞客戶定義后的信用評分分布直方圖
可見,通過更改好壞客戶的重新定義,解決了評分分布出現(xiàn)雙峰的問題。
2
參考模型:違約模型(先息后本和等本等息的混合模型)
解釋角度:錄入系統(tǒng)變更
評分分布如圖3、圖4所示,可見在兩個(gè)模型中均出現(xiàn)了雙峰問題。
圖3 先息后本模型的信用評分分布直方圖
圖4 等本等息模型的信用評分分布直方圖
通過對上述兩個(gè)信用評分卡模型中的變量進(jìn)行比較與分析后,我們發(fā)現(xiàn)其中一個(gè)共有變量,即配偶知曉貸款,在兩個(gè)模型中的得分都很低。于是我們在原始數(shù)據(jù)中對該變量進(jìn)行深入分析,發(fā)現(xiàn)該變量在2014年12月27日之后就沒有缺失值了。同時(shí),我們也發(fā)現(xiàn)居住類別變量在該時(shí)間點(diǎn)之后也沒有缺失值了。于是我們判斷在該時(shí)間點(diǎn)該P(yáng)2P公司發(fā)生過較大變動(dòng)。經(jīng)過跟對方的接觸,證實(shí)在該時(shí)間點(diǎn)該P(yáng)2P公司確實(shí)做過有關(guān)申請界面、必填字段、風(fēng)控把控等的相關(guān)調(diào)整。就配偶知曉貸款這個(gè)變量而言,在錄入系統(tǒng)調(diào)整之前有缺失選項(xiàng);在調(diào)整之后,沒有缺失選項(xiàng),系統(tǒng)默認(rèn)值為“是”。
由于錄入系統(tǒng)發(fā)生了較大的更改,更改所在時(shí)間點(diǎn)前后的數(shù)據(jù)是不同的,我們決定采用該時(shí)間點(diǎn)之后的數(shù)據(jù)再次建模。
新的評分分布直方圖如圖5、圖6所示:
圖5 新的先息后本模型的信用評分分布直方圖
圖6 新的等本等息模型的信用評分分布直方圖
通過發(fā)現(xiàn)錄入系統(tǒng)的變更,我們采用變更后的數(shù)據(jù)進(jìn)行建模,從而將雙峰分布重新調(diào)整為單峰分布。
3
參考模型:申請模型
解釋角度:變量
信用評分分布直方圖如圖7所示,發(fā)現(xiàn)出現(xiàn)雙峰情況。
圖7信用評分分布直方圖
發(fā)現(xiàn)出現(xiàn)雙峰,我們考慮是否因?yàn)槟硞€(gè)變量對變量預(yù)測有重要作用,造成該變量分?jǐn)?shù)分布對總體信用評分分布有重要影響。為找出這個(gè)變量,在計(jì)算總體評分時(shí),按照模型變量的IV值,從大到小依次刪除變量,觀察刪除某個(gè)變量后信用評分的分布情況。發(fā)現(xiàn)當(dāng)刪除銀行卡月均流水變量后,信用評分分布的直方圖如圖8所示,發(fā)現(xiàn)雙峰消失,由此確認(rèn)雙峰問題是由于銀行卡月均流水變量引起的。
圖8 刪除銀行卡月均流水變量后信用評分分布直方圖
由于刪除銀行卡月均流水變量后的信用評分分布并不是標(biāo)準(zhǔn)的正態(tài)分布或者近似正態(tài)分布,從而進(jìn)一步分析:統(tǒng)計(jì)銀行卡月均流水變量各分類下的分?jǐn)?shù)和對應(yīng)的樣本量。發(fā)現(xiàn)在頻數(shù)相等的情況下,流水小于等于39000元和大于39000元兩類分值相差較大。于是繼續(xù)考慮是否因?yàn)殂y行卡月均流水變量的小于等于39000一類分?jǐn)?shù)過低,與其它分類的分?jǐn)?shù)相差較大,使得總體信用評分不滿足標(biāo)準(zhǔn)正態(tài)性。
因此將樣本按照銀行卡月均流水變量大于39000、和小于等于39000分成兩類后,計(jì)算各自總體分?jǐn)?shù)的分布,分別如圖9、圖10所示。
圖9 銀行卡月均流水變量大于39000的信用評分直方圖
圖10 銀行卡月均流水變量小于等于39000的信用評分直方圖
從圖9和圖10中可發(fā)現(xiàn),按照銀行卡月均流水變量是否大于或者小于等于39000劃分樣本后,兩個(gè)數(shù)據(jù)集下的信用評分分布皆展示了一定的正態(tài)性,圖10中430和450分之間的高峰,正是總體評分分布出現(xiàn)小高峰的成因。
但是通過多次調(diào)整銀行卡月均流水變量的分組,雙峰問題依然無法解決,分析是否由于未知的外界因素引起,導(dǎo)致銀行卡月均流水在[0,39000]和39000+兩個(gè)范圍內(nèi),樣本之間存在較大的不同。
我們接下來觀察是否由于進(jìn)件時(shí)間不同引起:通過驗(yàn)證發(fā)現(xiàn)銀行卡月均流水變量各類別,均分布在進(jìn)件時(shí)間從2014年9月19日到2015年5月15日的區(qū)間內(nèi),并不存在顯著的不同。
進(jìn)一步考慮,是否由于借貸產(chǎn)品的不同而引起:
進(jìn)過進(jìn)一步分析發(fā)現(xiàn),在相同產(chǎn)品類別下,銀行卡月均流水變量的頻數(shù)分布與壞客戶占比分布并不存在顯著的不同。
由此確定,產(chǎn)生雙峰的外界因素并不是進(jìn)件時(shí)間和借貸產(chǎn)品的不同,而是可能當(dāng)銀行卡月均流水較小時(shí)(低于39000),業(yè)務(wù)上對成功獲貸的要求更加嚴(yán)格,從而使得這個(gè)區(qū)間的樣本壞客戶占比很高,從而該區(qū)間的信用評分很低,最終導(dǎo)致信用評分分布出現(xiàn)雙峰。
當(dāng)對銀行卡月均流水變量進(jìn)行相應(yīng)分?jǐn)?shù)調(diào)整后,其信用評分分布如圖11所示。
圖11 調(diào)整銀行卡月均流水變量后的信用評分直方圖
從而,通過對變量分?jǐn)?shù)的調(diào)整,我們將雙峰分布重新調(diào)整為單峰分布。
在P2P行業(yè)告訴發(fā)展的今天,互聯(lián)網(wǎng)金融企業(yè)的管理系統(tǒng)和風(fēng)控策略也不斷更新完善,對應(yīng)的內(nèi)部系統(tǒng)不斷完善的情況下,業(yè)務(wù)模式,系統(tǒng)升級,人員變動(dòng)等都會(huì)造成數(shù)據(jù)中有隱含的規(guī)律發(fā)生變化,數(shù)據(jù)一致性的假設(shè)被打破。數(shù)據(jù)建模人員首先要與對方確認(rèn)每一次業(yè)務(wù)、系統(tǒng)、人員等變更的時(shí)間節(jié)點(diǎn),以便做出預(yù)判,并對可能的數(shù)據(jù)變動(dòng)進(jìn)行邏輯驗(yàn)證。
數(shù)據(jù)確定后,還需確定模型個(gè)數(shù),盡可能保持客群和產(chǎn)品的統(tǒng)一性,避免將不同的客戶群體或者不同的產(chǎn)品混淆在一個(gè)模型之中。當(dāng)確定好數(shù)據(jù)采取時(shí)間、模型個(gè)數(shù)之后,要結(jié)合業(yè)務(wù)模式以及客戶需求給出好壞客戶定義,以便于模型開發(fā)的順利進(jìn)行。
在完成信用評分卡的開發(fā)之后,如果評分分布出現(xiàn)雙峰,我們要從各個(gè)方面查明原因,比如對方業(yè)務(wù)模式是否曾經(jīng)有過較大變動(dòng)、錄入系統(tǒng)是否更新過、好壞客戶的定義是否合適、變量分組是否合理等等。對于不同業(yè)務(wù)背景的模型,我們要采取針對有效的方式進(jìn)行查驗(yàn)。希望各位在看完本文后能夠?qū)﹄p峰分布有一個(gè)直觀的理解,而實(shí)際工作中遇到的情況是千變?nèi)f化的,具體情況還需要從實(shí)際角度出發(fā),根據(jù)相關(guān)業(yè)務(wù)背景查明原因。
本文是我們建模實(shí)踐中整理的關(guān)于造成雙峰情況的原因分析和解決方案,我們深知沒有涵蓋出現(xiàn)雙峰的全部情況,還希望與讀者、同行進(jìn)行深入討論,共同進(jìn)步!
《新程序員》:云原生和全面數(shù)字化實(shí)踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的风控大咖教你四步开发风控模型的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 评分卡开发方法论scorecard
- 下一篇: 常用数据挖掘算法简介