评分卡开发方法论scorecard
學(xué)習(xí)評分卡對于我這種非科班出身來說是比較難的一件事情(我是搞程序員出身,科班軟件工程的),在過去查閱和學(xué)習(xí)了很多資料后,發(fā)現(xiàn)了一個評分卡的開發(fā)方法論:SCORECARD,感覺比較符合軟件工程思想,而且也容易讓人記住,所以推薦此方法論來學(xué)習(xí)評分卡開發(fā),下面介紹一下這個方法論的內(nèi)容。
?
這九個字母分別是九個英文單詞的首寫字母,代表評分卡開發(fā)工作順序,它們的含義分別是:
S = Sampling數(shù)據(jù)選取與抽樣
C = Cleansing數(shù)據(jù)檢測、數(shù)據(jù)清洗、數(shù)據(jù)鏈接與合并
O = Optimization數(shù)據(jù)優(yōu)化處理,包括客戶分群(Segmentation)、變量分析與加工、粗分組等
R = Regression利用統(tǒng)計學(xué)回歸技術(shù)構(gòu)建模型
E = Equalization將模型轉(zhuǎn)化為評分卡形式
C = Confirmation?評分卡評估與確認(rèn)
A = Administration評分卡實(shí)施上線與管理,包括指定管理人,記錄評分卡使用情況等
R = Review評分卡跟蹤驗(yàn)證
D = Documentation整理記錄,完成項(xiàng)目技術(shù)文檔
下面按照字母順序,詳細(xì)描述SCORECARD方法論的關(guān)鍵內(nèi)容:
S = Sampling,數(shù)據(jù)選取與抽樣(建議雙盲隨機(jī)抽取)
開發(fā)評分卡,我們希望能夠使用所有可以獲得的數(shù)據(jù),對數(shù)據(jù)的存在性、獲得的難易程度、未來使用的可能性、時效性、以及數(shù)據(jù)質(zhì)量進(jìn)行評估,去除不能用來開發(fā)評分卡的數(shù)據(jù),通過取舍過程確定開發(fā)數(shù)據(jù)集,這個過程就是數(shù)據(jù)選取。
首先、我們需要確定評分卡的開發(fā)目標(biāo),也就是評分卡要解決的問題,即要衡量和預(yù)測什么;
其次、是選擇數(shù)據(jù)的觀察區(qū)間和表現(xiàn)區(qū)間,觀察區(qū)間是獲得評分卡自變量的數(shù)據(jù)采集時間段,表現(xiàn)區(qū)間則是評分卡因變量的數(shù)據(jù)采集時間段,表現(xiàn)區(qū)間采集的客戶表現(xiàn)數(shù)據(jù),用來確定“好”、“壞”客戶。
絕大多數(shù)情況下,在開發(fā)評分卡的業(yè)務(wù)中,可以把賬戶按照日常運(yùn)營操作的實(shí)際情況分為“好”賬戶、“壞”賬戶。所謂的“好”賬戶,就是日常愿意保留的賬戶,而“壞”賬戶是產(chǎn)生日常不希望看到的情況的那些賬戶。這里的定義往往在每次開發(fā)評分卡的時候都需要仔細(xì)討論。相對于“壞”賬戶的數(shù)量來說,往往存在有大量的“好”賬戶,而且數(shù)目可能很大。開發(fā)統(tǒng)計學(xué)評分卡,通常不需要將所有的“好”賬戶都納入開發(fā)數(shù)據(jù)集,而是從“好”賬戶中選取有代表性的樣本數(shù)據(jù),這個過程稱為數(shù)據(jù)抽樣。常用的抽樣方法有:簡單隨機(jī)抽樣、系統(tǒng)抽樣、整群抽樣和分層抽樣,將根據(jù)實(shí)際情況確定抽樣方法。
C = Cleansing, 數(shù)據(jù)檢測、數(shù)據(jù)清洗、數(shù)據(jù)鏈接與合并(數(shù)據(jù)集市的那套建設(shè)方法)
選定樣本數(shù)據(jù)后,可能會提供多個來源、甚至多種類型的數(shù)據(jù)集。我們需要首先將這些數(shù)據(jù)集進(jìn)行整理,成為同一類數(shù)據(jù),例如SAS數(shù)據(jù),或者TXT形式的數(shù)據(jù)。數(shù)據(jù)整理的復(fù)雜程度取決于日常的數(shù)據(jù)存儲方式、評分卡建立需要使用的數(shù)據(jù)源數(shù)量、及數(shù)據(jù)維護(hù)方式。數(shù)據(jù)整理過程包括下面三個步驟:
1、數(shù)據(jù)檢測。原始數(shù)據(jù)通常會存在各種各樣的問題,如:不同時期的數(shù)據(jù)格式不一致,存在錯誤值、缺失值、異常值等。數(shù)據(jù)檢測是通過對變量進(jìn)行分步檢測工作,發(fā)現(xiàn)數(shù)據(jù)中存在的問題。
2、數(shù)據(jù)清洗。根據(jù)數(shù)據(jù)檢測的結(jié)果,對數(shù)據(jù)中存在的錯誤和問題進(jìn)行針對性處理,剔除不合理記錄、去掉重復(fù)記錄、及對缺失數(shù)據(jù)項(xiàng)進(jìn)行處理,將“不干凈數(shù)據(jù)”清洗成“干凈數(shù)據(jù)”。比較常見的缺失數(shù)據(jù)處理方法有:直接刪除法、特殊值填充法、平均數(shù)填充法、眾數(shù)填充法等。考慮到在未來將評分卡應(yīng)用到零售日常業(yè)務(wù)過程中會遇到的復(fù)雜情況,通常會根據(jù)實(shí)際數(shù)據(jù)情況采用某一種簡單但是有效的處理方法。
3、數(shù)據(jù)鏈接與合并。這些數(shù)據(jù)集之間應(yīng)當(dāng)有必要的匹配鍵,例如:申請編號、賬號等等。按照相應(yīng)的匹配鍵將整理好的數(shù)據(jù)集進(jìn)行鏈接與合并,形成一個扁平文件。
O = Optimization,數(shù)據(jù)優(yōu)化處理,包括客戶分群(Segmentation)、變量分析與加工、粗分組等
數(shù)據(jù)的詳細(xì)分析與加工,在開發(fā)評分卡的流程中,占有絕對重要的地位,也是花費(fèi)時間最多的一項(xiàng)工作。在數(shù)據(jù)質(zhì)量相同的前提下,只有這一步工作進(jìn)行得細(xì)致周到,才有可能開發(fā)出高質(zhì)量的評分卡。歷史經(jīng)驗(yàn)表明,如果對數(shù)據(jù)進(jìn)行同樣深度的加工,無論將來采用哪種評分卡開發(fā)方法,結(jié)果的差異性不會很大,反之,如果數(shù)據(jù)分析加工工作做得不夠深入,無論用什么方法,都不可能得到高質(zhì)量的評分卡。
按順序?qū)ぷ鞑襟E介紹如下:
1、客戶分群(Segmentation)。客戶分群是對這些開發(fā)數(shù)據(jù)進(jìn)行詳細(xì)分析,將風(fēng)險成因特征相似的客戶聚在一起,將風(fēng)險成因特征差異較大的人分為不同的群體,使得分別開發(fā)的評分卡都更具有針對性。分群首先要基于業(yè)務(wù)用途,其次是結(jié)合數(shù)據(jù)進(jìn)行調(diào)整。
2、中間變量(Attributes)。根據(jù)評分卡開發(fā)經(jīng)驗(yàn)對建模數(shù)據(jù)進(jìn)行加工,產(chǎn)生中間變量,也就是衍生變量。中間變量的產(chǎn)生是評分卡開發(fā)的一個重要環(huán)節(jié),沒有合理的中間變量集,就不可能建立高質(zhì)量的評分卡。產(chǎn)生中間變量時,要考慮變量的預(yù)測能力、變量的類別、變量的穩(wěn)定性等因素,盡量覆蓋到影響評分卡預(yù)測目標(biāo)的所有角度。在這個環(huán)節(jié)中,需要對連續(xù)型數(shù)值變量進(jìn)行離散化處理。
3、粗分組(Coarse Classing)。在將連續(xù)型數(shù)值變量進(jìn)行離散化處理之后,所有有可能進(jìn)入模型的變量都需要逐一進(jìn)行粗分組運(yùn)算。對變量進(jìn)行粗分組處理,既可以避免模型出現(xiàn)過渡擬合,影響將來評分卡的穩(wěn)定性,也可以解決模型對變量的單調(diào)性和線性要求。粗分組的一般原則是在預(yù)測未來表現(xiàn)時,將模式相近的相鄰變量屬性進(jìn)行組合,同時確保分組中有足夠的樣本以彰顯統(tǒng)計意義。粗分組工作的結(jié)果,是將所有可能進(jìn)入評分卡的變量都劃分成有限個屬性區(qū)間或組別的形式,從而可以以啞變量或者證據(jù)權(quán)重的形式進(jìn)入建模型階段。
最后,將開發(fā)數(shù)據(jù)全部整理到一個數(shù)據(jù)集內(nèi),我們將得到一個數(shù)據(jù)表,采用以每條記錄為一行的數(shù)據(jù)羅列方式。
R = Regression, 利用統(tǒng)計學(xué)回歸技術(shù)建模型
世界上流行的評分模型開發(fā)方法主要分三類:非線性規(guī)劃算法、統(tǒng)計學(xué)回歸算法、神經(jīng)網(wǎng)絡(luò)算法(目前還流行隨機(jī)森林、機(jī)器學(xué)習(xí)鄧算法應(yīng)有盡有,我自己比較喜歡用L+SVM的方式)。在對數(shù)據(jù)進(jìn)行了充分的分析與加工之后,三者之間的差異性通常不是很大(根據(jù)工作中某博士自己做的不同類型的方法出來的評分卡差異性在13%左右,也說明任何一種方法都不會完美解決一個問題)。主要采取的是統(tǒng)計學(xué)回歸算法(FICO評分只用L模型,迭代了超過七各版本)。對于預(yù)測的二元(或多元)因變量情況,廣義線性模型中的Logistic回歸可以滿足要求。從單個變量來看,可能很多變量都有預(yù)測能力,但是由于變量之間有一定的相關(guān)性,因此高度相關(guān)的變量可能不需要同時進(jìn)入模型,增加系統(tǒng)運(yùn)算壓力。有些變量的預(yù)測能力遠(yuǎn)遠(yuǎn)不足以幫助模型提高預(yù)測能力,盡管自身具有一定的預(yù)測意義,也不一定會被選中。最后被選擇進(jìn)入模型的,是那些綜合在一起可以帶來最高預(yù)測能力的變量組合。
在模型構(gòu)建時要將數(shù)據(jù)集劃分成開發(fā)集和測試集,基于開發(fā)集進(jìn)行模型建立,通過考察測試集的模型效果來校驗(yàn)?zāi)P汀?/p>
E = Equalization,將模型轉(zhuǎn)化為評分卡形式
模型建立以后,需要將模型的系數(shù)轉(zhuǎn)化為評分。通常我們希望看到的評分卡分?jǐn)?shù),均為正整數(shù),這是為了保證在使用上的方便性。會建議日常對評分卡選定一個恰當(dāng)?shù)姆謹(jǐn)?shù)區(qū)間。另外,對于一套多張評分卡的情形,經(jīng)過這樣的轉(zhuǎn)化,可以使得無論出自哪一張評分卡,同樣的分?jǐn)?shù)都對應(yīng)同樣的“好”“壞”比例,便于制定和執(zhí)行信貸決策。
C = Confirmation,評分卡評估與確認(rèn)
開發(fā)完成的評分卡要滿足一定的質(zhì)量標(biāo)準(zhǔn)。首先,評分卡要具備合理性。對評分卡中變量的分值及趨勢,需要與業(yè)務(wù)經(jīng)驗(yàn)吻合,不存在矛盾或者不合理的情況。其次,評分卡要具備一定的穩(wěn)定性。評分卡在開發(fā)集和測試集、及跨時區(qū)校驗(yàn)集上的預(yù)測能力指標(biāo)要穩(wěn)定,評分卡的預(yù)測能力不應(yīng)該隨個別變量的變動而發(fā)生顯著改變;最后,評分卡必須對目標(biāo)變量有比較好的預(yù)測能力。采用的評分卡預(yù)測能力評估指標(biāo)有:分離度(Divergence)、洛倫茲曲線(Lorenzo Curve)、K-S檢驗(yàn)(Kolmogorov-Smirnov)等。
此外,由于評分卡的開發(fā)周期往往歷時數(shù)周,甚至數(shù)月,在開發(fā)過程中,業(yè)務(wù)經(jīng)營上不可避免的會發(fā)生一些變化,因此在完成開發(fā)以后,需要再次與評分卡使用人員溝通,了解是否有數(shù)據(jù)定義變動、數(shù)據(jù)流程變動等,這樣可以對評分卡進(jìn)行相應(yīng)的調(diào)整,得到最終確認(rèn)。
A = Administration,評分卡實(shí)施上線與管理,包括指定管理人,記錄評分卡使用情況等
評分卡確認(rèn)后,在上線使用的時候,需要三個方面的配合:IT系統(tǒng)、風(fēng)控政策、業(yè)務(wù)流程。可以在這三個方面提供相應(yīng)的輔導(dǎo),比如在系統(tǒng)中實(shí)現(xiàn)評分卡計算的時候,提供評分卡安裝指引,確保評分卡被正確的安裝到?jīng)Q策引擎軟件當(dāng)中;在政策方面,可以輔導(dǎo)日常的評分卡管理人員制定人工修正評分卡的規(guī)定和管理辦法,比如允許在何種情況下,根據(jù)哪些原因批準(zhǔn)一個未達(dá)到界限分?jǐn)?shù)的申請人,以及如何對這樣的案例進(jìn)行評估;在流程方面,客戶使用了評分卡進(jìn)行信貸審批和賬戶管理之后,可以提供參考意見,建議優(yōu)化調(diào)整某些工作步驟。
評分卡投入使用后,評分卡管理人員需要記錄與評分卡有關(guān)的業(yè)務(wù)變化,例如大型營銷活動、政策調(diào)整、信用卡資產(chǎn)并購等等,這些記錄往往可以解釋評分卡跟蹤中發(fā)現(xiàn)的異常現(xiàn)象。
R = Review,評分卡跟蹤驗(yàn)證
每一張評分卡都會有有效期,以往的經(jīng)驗(yàn)顯示這個有效期通常只有一兩年,極端情況下幾個月甚至更少,如果經(jīng)濟(jì)環(huán)境變化比較大,日常信貸政策有重大調(diào)整,或者日常的客戶管理模式發(fā)生變化,都會直接導(dǎo)致評分卡有效期的縮短。相反,如果信貸環(huán)境沒有明顯變化,日常的風(fēng)險管理原則變化不大,則評分卡的有效期會比較長。一個評分卡隨時間而失效,不說明評分卡質(zhì)量差,而是說明需要重新開發(fā)評分卡的時候到了。
日常需要持續(xù)性的對評分卡進(jìn)行跟蹤驗(yàn)證,首先需要檢查評分卡的適用性,即確保應(yīng)用評分卡的人群和評分卡開發(fā)樣本之間沒有重大差異;其次,日常需要確保評分卡的有效性,即評分卡依然可以有排序功能。
評分卡開發(fā)完成以后,即使是在評分卡上線之前,也可以馬上進(jìn)行評分卡的跟蹤工作,了解評分卡應(yīng)用人群的整體偏移情況,考察其適用性;評分卡開發(fā)完成一段時間后,可以驗(yàn)證評分卡的有效性。前者稱為前端跟蹤,后者稱為后端跟蹤。
在完成評分卡開發(fā)工作后,會提供評分卡的前端和后端跟蹤報表模板,供評分卡管理人員使用。如果日常需要,也會提供解讀報表的咨詢服務(wù)。
D = Documentation,整理記錄,完成項(xiàng)目技術(shù)文檔
作為風(fēng)險管理的公司,清晰完整的項(xiàng)目文檔是必不可少的,它記錄完整的項(xiàng)開發(fā)過程,使開發(fā)過程可以經(jīng)受住無論來自于監(jiān)管當(dāng)局,還是內(nèi)部審計部門的挑戰(zhàn),同時也方便評分卡管理人員了解項(xiàng)目情況,便于對評分卡進(jìn)行跟蹤驗(yàn)證。
另外,用敏捷項(xiàng)目管理來對評分卡的落地實(shí)現(xiàn)是非常好的一種方式,推薦大家使用。
消費(fèi)金融風(fēng)控聯(lián)盟一如既往的專注于消費(fèi)金融下的多場景風(fēng)控方案設(shè)計、策略落地實(shí)施及相關(guān)風(fēng)控知識分享,為廣大消金及風(fēng)控從業(yè)人員提供滿意的服務(wù)。
總結(jié)
以上是生活随笔為你收集整理的评分卡开发方法论scorecard的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【待继续研究】解析信用评分模型的开发流程
- 下一篇: 风控大咖教你四步开发风控模型