【待继续研究】除了专家模型,这两大模型也被普遍应用于信用评估
66號學苑小書童:信用風險計量模型的基本技術(shù)路線是:利用借款者的特征指標和宏觀經(jīng)濟變量,收集這些特征指標和宏觀變量的歷史數(shù)據(jù),并將其應(yīng)用于預測違約借款人與履約借款人。預測模型旨在評估未知借款者將來是否還款的信用價值,將潛在借款者的特征值輸入模型,從模型中輸出信用價值評估,從而可對潛在借款人進行信用評估。
一般的評級方法可以分為專家經(jīng)驗判斷法、參數(shù)模型和非參數(shù)模型。
所謂的專家經(jīng)驗判斷,就是相關(guān)專家根據(jù)主觀經(jīng)驗進行打分,后兩種方法都是根據(jù)模型進行客觀的計算。而對于參數(shù)模型與非參數(shù)模型的區(qū)分:用代數(shù)方程、微分方程、微分方程組以及傳遞函數(shù)等描述的模型都是參數(shù)模型。建立參數(shù)模型就在于確定已知模型結(jié)構(gòu)中的各個參數(shù),通過理論分析總是得出參數(shù)模型;非參數(shù)模型是直接或間接地從實際系統(tǒng)的實驗分析中得到的響應(yīng),例如通過實驗記錄到的系統(tǒng)脈沖響應(yīng)或階躍響應(yīng)就是非參數(shù)模型。
這三種模型通俗通俗來說,可以這樣解釋:
1.項目組小翟最近喜歡上了一個姑娘,但是非常苦惱姑娘是不是喜歡自己。小翟來咨詢他的人生導師-小張姐姐,小張姐姐根據(jù)自己的經(jīng)驗判斷姑娘不會喜歡他,小翟非常傷心,這就是專家經(jīng)驗判斷法。
2.之后,小翟又來咨詢數(shù)據(jù)分析高手-小金哥哥,小金哥哥通過分析小翟和姑娘的生辰八字,列出了回歸方程,判斷姑娘會有37.28%概率喜歡上小翟,小翟非常傷心,這就是參數(shù)模型。
3.最后,小翟又來咨詢數(shù)學專業(yè)高材生-小沈姐姐,小沈姐姐收集了幾十對在一起的情侶又收集了幾十對沒有在一起的情侶,通過決策樹的算法,判斷小翟和姑娘的數(shù)據(jù)更偏向于沒有在一起的情侶,小翟非常傷心,這就是非參數(shù)模型。
一、專家模型判斷法
專家經(jīng)驗判斷是根據(jù)信貸專家多年從業(yè)經(jīng)驗進行定性判斷。
1、層次分析法
層次分析法(簡稱AHP)是美國運籌學家Saaty教授于20世紀70年代初提出的,其特點是把復雜問題中的各種因素通過劃分為相互聯(lián)系的有序?qū)哟?#xff0c;使之條理化。
作為規(guī)劃、決策和評價的工具,AHP自問世以來,已在各個領(lǐng)域得到迅速普及和推廣,取得了大量的研究成果。層次分析法主要用于確定綜合評價的權(quán)重系數(shù),所用數(shù)學工具主要是矩陣的運算。信用風險的測算是一個復雜的、多層次的評價過程,每個指標要素之間的關(guān)系是相互依存、相互作用的,它們是一個整體。
層次分析法計算過程如下:
(1)每兩個指標的相對重要性判斷假設(shè)函數(shù)f(x,y)
它表示評價指標x對于評價指標y的重要程度。約定f(x,y)=1/f(y,x)。如下表所示。
重要程度
說明
f(x,y)
x比y同等重要
x,y對總指標有相同的重要程度
1
x比y稍微重要
x的重要程度大于y,但是不明顯
3
x比y明顯重要
x的重要程度明顯大于y,但不十分明顯
5
x比y非常重要
x的重要程度十分明顯大于y,但不特別突出
7
x比y絕對重要
x的重要程度以壓倒優(yōu)勢大于y
9
x比y介于各等級之間
相鄰兩判斷的折中
2,4,6,8
(2)構(gòu)造判斷矩陣
設(shè)為全部評價指標所組成的一個集,按照上表中所列的各個指標之間的重要程度,對所有同層次之間的評價指標進行兩兩之間的對比,構(gòu)造矩陣,其中,并且矩陣C稱之為判斷矩陣。
(3)計算權(quán)重
根據(jù)上述構(gòu)造的判斷矩陣C,通過矩陣運算,計算它的最大特征值
,并求出矩陣C關(guān)于最大特征值的特征向量
,經(jīng)過歸一化處理后的xi就是各評價因子的權(quán)重。
,矩陣A即為權(quán)重向量。
(4)一致性檢驗
根據(jù)下式計算一致性指標CI
查找平均隨機一致性指標RI.
n
1
2
3
4
5
6
7
8
9
10
RI
0
0
0.25
0.89
1.12
1.24
1.36
1.41
1.46
1.49
根據(jù)下式計算一致性比例CR。
當CR<0.10,認為判斷矩陣的一致性是可以接受的,否則對判斷矩陣進行適當?shù)男薷?#xff0c;最終達到一致性要求。
二、參數(shù)模型
1.邏輯回歸
Logistic回歸用于分類的應(yīng)用比較廣泛,利用Logistic回歸模型可以將因變量與自變量之間關(guān)系的求解轉(zhuǎn)變?yōu)榍蠼獗唤忉屪兞堪l(fā)生類別的相應(yīng)概率。
Logistic回歸模型的思想來自于線性回歸,是一種非線性概率回歸,多元線性回歸用來預測由多個連續(xù)解釋變量構(gòu)成的函數(shù)模型的被解釋變量數(shù)值的大小,而Logistic回歸是用來預測由一個或多個解釋變量構(gòu)成的分類函數(shù)中屬于其中一類的概率。
Logistic邏輯回歸分析的假設(shè)前提為:
數(shù)據(jù)來自隨機樣本;
自變量之間不存在多重共線性關(guān)系。
Logistic函數(shù)的形式為:
那么在回歸模型基礎(chǔ)上計算得出的發(fā)生的概率和之間存在如下的回歸關(guān)系:
邏輯回歸模型是解決0-1回歸問題行之有效的方法,模型的曲線為S型,最大值趨近1,最小值趨近0。通過設(shè)定臨界值作為事件發(fā)生與否的標準,如果事件發(fā)生的概率大于臨界值,則判定事件發(fā)生;反之,判定事件不發(fā)生。和判別分析方法不同,Logistic回歸模型在理論上并不存在“最優(yōu)”的分割點,分割點的選取取決于模型使用者的具體目的。
2.實現(xiàn)方式
一般邏輯回歸數(shù)據(jù)量不是特別大,spss操作起來簡單易懂,同時SAS\Python都可以實現(xiàn)。
SAS基礎(chǔ)代碼:
proc logistic data=數(shù)據(jù)名 desending;model 因變量=自變量; run;
3.判別分析
紐約大學斯特恩商學院教授愛德華·阿特曼(Edward Altman)在1968年就對美國破產(chǎn)和非破產(chǎn)生產(chǎn)企業(yè)進行觀察,采用了22個財務(wù)比率經(jīng)過數(shù)理統(tǒng)計篩選建立了著名的5變量Z-score模型。
Z-score模型是以多變量的統(tǒng)計方法為基礎(chǔ),以破產(chǎn)企業(yè)為樣本,通過大量的實驗,對企業(yè)的運行狀況、破產(chǎn)與否進行分析、判別的系統(tǒng)。Z-score模型在美國、澳大利亞、巴西、加拿大、英國、法國、德國、愛爾蘭、日本和荷蘭得到了廣泛的應(yīng)用。
X1=(流動資產(chǎn)-流動負債)/資產(chǎn)總額;
X2=(未分配利潤+盈余公積金)/資產(chǎn)總額;
X3=(稅前利潤十財務(wù)費用)/資產(chǎn)總額;
x4=(每股市價*流通股數(shù)+每股凈資產(chǎn)*非流通股數(shù))/負債總額;
X5=主營業(yè)務(wù)收入/資產(chǎn)總額
判斷準則:Z<1.8,破產(chǎn)區(qū);1.8≤Z<2.99,灰色區(qū);2.99<Z,安全區(qū)
4.BSM莫頓模型
1973年,美國芝加哥大學教授 Fischer Black&Myron Scholes提出了著名的B-S定價模型,用于確定歐式股票期權(quán)價格,在學術(shù)界和實務(wù)界引起了強烈反響;同年,Robert C. Merton獨立地提出了一個更為一般化的模型,布萊克-舒爾斯-默頓期權(quán)定價模型(下文簡稱B-S-M模型),并由此導出衍生證券定價的一般方法。
舒爾斯和莫頓由此獲得了1997年的諾貝爾經(jīng)濟學獎。現(xiàn)在,布萊克—斯科爾斯—莫頓定價公式已被期貨市場參與者廣泛接受,是金融工程中所有定價理論的基石。
經(jīng)典BSM模型:
信用資產(chǎn)的違約行為表現(xiàn)為借款人到期不能償還貸款的本金利息。莫頓理論假設(shè)一旦借款人的資產(chǎn)市值在一年內(nèi)低于其現(xiàn)有負債價值,則借款人將發(fā)生違約。如果我們能獲得資產(chǎn)波動的相關(guān)性,借助以資產(chǎn)為基礎(chǔ)的違約,就可以獲得違約的相關(guān)性。而資產(chǎn)波動的相關(guān)性,在資本市場上是可以觀察到的,并有完整的數(shù)據(jù)積累。當借款人的資產(chǎn)市場價值小于一個閥值(負債)時,借款人發(fā)生違約。
根據(jù)BSM模型,可以將貸款看做一種期權(quán),一旦市值小于其負債就看做執(zhí)行期權(quán),產(chǎn)生違約。期權(quán)執(zhí)行的概率=N(d2),即違約概率
三、非參數(shù)模型
1.聚類分析
對沒有目標變量的數(shù)據(jù)集根據(jù)數(shù)據(jù)的相似性給出 “自然的”分組,類內(nèi)對象相似性盡量大,類間對象相似性盡量小。根據(jù)結(jié)果類的分離性,聚類分為重疊聚類與互斥聚類。
首先定義能度量樣品(或變量)間相似程度(親疏關(guān)系)的統(tǒng)計量,在此基礎(chǔ)上求出各樣品(或變量)間相似程度的度量值;然后按相似程度的大小,把樣品(或變量)逐一歸類,關(guān)系密切的聚集到一個小的分類單位,關(guān)系疏遠的聚合到一個大的分類單位,直到所有的樣品(或變量)都聚合完畢,把不同的類型一一劃分出來,形成一個由小到大的分類系統(tǒng)。
聚類分析可以由SPSS點擊實現(xiàn),也可以由SAS函數(shù)實現(xiàn)。
聚類分析SAS代碼:
proc varclus data=數(shù)據(jù)集 outtree=tree;
var 變量;
run;
proc tree data =tree;run;
2.決策樹
決策樹(Decision Tree)是一種簡單但是廣泛使用的分類器。通過訓練數(shù)據(jù)構(gòu)建決策樹,可以高效的對未知的數(shù)據(jù)進行分類。決策數(shù)有兩大優(yōu)點:
(1)決策樹模型可以讀性好,具有描述性,有助于人工分析;
效率高,決策樹只需要一次構(gòu)建,反復使用,每一次預測的最大計算次 數(shù)不超過決策樹的深度。
決策樹在SPSS里有成型的算法,直接單擊使用即可。SAS中的Proc split或Proc hpsplit函數(shù)可以直接調(diào)用。R語言中的rpart()函數(shù)也可以直接調(diào)用生成決策樹。
決策樹有很多優(yōu)點,比如:易于理解、易于解釋、可視化、無需大量數(shù)據(jù)準備。使用決策樹(預測數(shù)據(jù))的成本是訓練決策時所用數(shù)據(jù)的對數(shù)量級。
但這些模型往往不直接使用,決策樹一些常見的缺陷是:
構(gòu)建的樹過于復雜,無法很好地在數(shù)據(jù)上實現(xiàn)泛化、數(shù)據(jù)的微小變動可能導致生成的樹完全不同,因此決策樹不夠穩(wěn)定、決策樹學習算法在實踐中通常基于啟發(fā)式算法,如貪婪算法,在每一個結(jié)點作出局部最優(yōu)決策。此類算法無法確保返回全局最優(yōu)決策樹。如果某些類別占據(jù)主導地位,則決策樹學習器構(gòu)建的決策樹會有偏差。因此推薦做法是在數(shù)據(jù)集與決策樹擬合之前先使數(shù)據(jù)集保持均衡。
由于決策樹容易對數(shù)據(jù)產(chǎn)生過擬合,因此分支更少(即減少區(qū)域 R_1, … ,R_J)的小樹雖然偏差略微高一點,但其產(chǎn)生的方差更低,可解釋性更強。減少決策樹的方差可以通過袋裝(bagging)和隨機扥林方法來實現(xiàn),由于隨機森林在效果上好于袋裝,下面只介紹隨機森林函數(shù)。
3.隨機森林
顧名思義,森林是由很多顆樹構(gòu)成,隨機森林也是由很多個決策樹構(gòu)成。
隨機森林通過隨機擾動而令所有的樹去相關(guān),在構(gòu)建每一棵樹時,每一個結(jié)點分割前都是采用隨機樣本預測器。隨機森林可以考慮使用大量預測器,不僅因為這種方法減少了偏差,同時局部特征預測器在樹型結(jié)構(gòu)中充當重要的決策。
隨機森林可以使用巨量的預測器,甚至預測器的數(shù)量比觀察樣本的數(shù)量還多。采用隨機森林方法最顯著的優(yōu)勢是它能獲得更多的信息以減少擬合數(shù)值和估計分割的偏差。
隨機森林可由R語言中的randomforest()函數(shù)實現(xiàn)。函數(shù)默認生成500顆樹,并且默認每個節(jié)點抽取個變量。
4.支持向量機(SVM)
支持向量機分類器的基本原理是通過一個非線性變換將一個線性不可分的空間映射到另一個高維的線性可分的空間,并建立一個分類器,這個分類器具有極小的 VC 維數(shù)。
該分類器僅由大量樣本中的極少數(shù)支持向量確定,并且具有最大的邊界寬度。支持向量機算法的好處在于不是直接計算復雜的非線性變換,而是通過計算非線性變換的點積,因而大大簡化了計算量。通過把核函數(shù)引入到一些學習算法中來,可以很方便地把線性算法轉(zhuǎn)換為非線性算法,將其與支持向量機一起稱為基于核函數(shù)的方法。
從信用評級問題的特點來看,適合采用SVM進行處理。SVM的特點之一是簡單、推廣能力強和易于解釋。銀行信用評級歷史數(shù)據(jù)的一個特點是分布零散,各個信用等級的樣本數(shù)據(jù)量差別很大,而且可能存在較多的有缺陷的樣本。如果使用一般的模式識別模型,由于各個類別樣本數(shù)據(jù)量不對稱,訓練過程中分類器分類效果會向樣本量大的類別傾斜。然而對商業(yè)銀行來說,一些高風險類別的對象,其數(shù)量雖然少,但是將其識別出來卻是至關(guān)重要的。
另一方面,借款人的歷史數(shù)據(jù)中存在缺陷是很正常的,甚至會有虛假信息,這些樣本應(yīng)該被剔除掉。如果使用全部樣本訓練分類器的話,這些樣本的存在可能會對分類器性能產(chǎn)生極大影響。
但在SVM模型中,只有支持向量才對優(yōu)化起作用,而支持向量的數(shù)量是非常有限的。因此,可以在使用SVM模型得到結(jié)果后,由專家對支持向量集進行研究,既可以得到對結(jié)果的深入認識,又可以對支持向量樣本進行審查,如果其中包含了有嚴重缺陷的樣本的話可以剔除出去重新訓練。
SVM模型的另一個特點是泛化能力強,SVM模型的復雜度可以由支持向量的數(shù)量來描述,而這又很容易控制。因此,SVM模型不會出現(xiàn)過擬合問題,模型的穩(wěn)定性相當好,能很好滿足銀行對信用評級系統(tǒng)的穩(wěn)定性要求。
支持向量機可以通過R語言中kernlab包的ksvm()函數(shù)和e1071包中的svm()函數(shù)實現(xiàn)。
5.K緊鄰學習-KNN
最簡單最初級的分類器是將全部的訓練數(shù)據(jù)所對應(yīng)的類別都記錄下來,當測試對象的屬性和某個訓練對象的屬性完全匹配時,便可以對其進行分類。
KNN是通過測量不同特征值之間的距離進行分類。它的的思路是:如果一個樣本在特征空間中的k個最相似(即特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。K通常是不大于20的整數(shù)。KNN算法中,所選擇的鄰居都是已經(jīng)正確分類的對象。該方法在定類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。
R語言里的kknn包可以實現(xiàn)最鄰近算法——使用kknn()函數(shù)。
6.貝葉斯分類器
貝葉斯分類器的分類原理是通過某對象的先驗概率,利用貝葉斯公式計算出其后驗概率,即該對象屬于某一類的概率,選擇具有最大后驗概率的類作為該對象所屬的類。也就是說,貝葉斯分類器是最小錯誤率意義上的優(yōu)化。
經(jīng)典貝葉斯公式:
貝葉斯分類器可通過R語言樸素貝葉斯包 klaRNaiveBayes()實現(xiàn)。
《新程序員》:云原生和全面數(shù)字化實踐50位技術(shù)專家共同創(chuàng)作,文字、視頻、音頻交互閱讀總結(jié)
以上是生活随笔為你收集整理的【待继续研究】除了专家模型,这两大模型也被普遍应用于信用评估的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 你知道你的模型可以为公司赚多少钱吗
- 下一篇: 原来评分卡模型的概率是这么校准的!