贷款违约预测--赛题理解
- 比賽連接https://tianchi.aliyun.com/competition/entrance/531830/introduction
- 賽題理解:
- 賽題以金融風(fēng)控中的個(gè)人信貸為背景,根據(jù)貸款申請(qǐng)人的數(shù)據(jù)信息來(lái)預(yù)測(cè)其是否有違約的可能,以此判斷是否貸款,這是典型的二分類(lèi)問(wèn)題。
- 賽題數(shù)據(jù):
- 貸款數(shù)據(jù)記錄介紹
- id 為貸款清單分配的唯一信用證標(biāo)識(shí)
- loanAmnt 貸款金額
- term 貸款期限(year)
- interestRate 貸款利率
- installment 分期付款金額
- grade 貸款等級(jí)
- subGrade 貸款等級(jí)之子級(jí)
- employmentTitle 就業(yè)職稱(chēng)
- employmentLength 就業(yè)年限(年)
- homeOwnership 借款人在登記時(shí)提供的房屋所有權(quán)狀況
- annualIncome 年收入
- verificationStatus 驗(yàn)證狀態(tài)
- issueDate 貸款發(fā)放的月份
- purpose 借款人在貸款申請(qǐng)時(shí)的貸款用途類(lèi)別
- postCode 借款人在貸款申請(qǐng)中提供的郵政編碼的前3位數(shù)字
- regionCode 地區(qū)編碼
- dti 債務(wù)收入比
- delinquency_2years 借款人過(guò)去2年信用檔案中逾期30天以上的違約事件數(shù)
- ficoRangeLow 借款人在貸款發(fā)放時(shí)的fico所屬的下限范圍
- ficoRangeHigh 借款人在貸款發(fā)放時(shí)的fico所屬的上限范圍
- openAcc 借款人信用檔案中未結(jié)信用額度的數(shù)量
- pubRec 貶損公共記錄的數(shù)量
- pubRecBankruptcies 公開(kāi)記錄清除的數(shù)量
- revolBal 信貸周轉(zhuǎn)余額合計(jì)
- revolUtil 循環(huán)額度利用率,或借款人使用的相對(duì)于所有可用循環(huán)信貸的信貸金額
- totalAcc 借款人信用檔案中當(dāng)前的信用額度總數(shù)
- initialListStatus 貸款的初始列表狀態(tài)
- applicationType 表明貸款是個(gè)人申請(qǐng)還是與兩個(gè)共同借款人的聯(lián)合申請(qǐng)
- earliesCreditLine 借款人最早報(bào)告的信用額度開(kāi)立的月份
- title 借款人提供的貸款名稱(chēng)
- policyCode 公開(kāi)可用的策略代碼=1新產(chǎn)品不公開(kāi)可用的策略代碼=2
n系列匿名特征 匿名特征n0-n14,為一些貸款人行為計(jì)數(shù)特征的處理
- 貸款數(shù)據(jù)記錄介紹
數(shù)據(jù)中有字母和數(shù)值,也連續(xù)型變量和離散型變量,數(shù)據(jù)中存在許多缺失值
-
評(píng)分體系
- 比賽采用AUC作為評(píng)價(jià)指標(biāo)。AUC(Area Under Curve)被定義為 ROC曲線(xiàn) 下與坐標(biāo)軸圍成的面積。
-
分類(lèi)算法常用評(píng)價(jià)指標(biāo)
1、混淆矩陣(Confuse Matrix)
(1)若一個(gè)實(shí)例是正類(lèi),并且被預(yù)測(cè)為正類(lèi),即為真正類(lèi)TP(True Positive )(2)若一個(gè)實(shí)例是正類(lèi),但是被預(yù)測(cè)為負(fù)類(lèi),即為假負(fù)類(lèi)FN(False Negative )(3)若一個(gè)實(shí)例是負(fù)類(lèi),但是被預(yù)測(cè)為正類(lèi),即為假正類(lèi)FP(False Positive )(4)若一個(gè)實(shí)例是負(fù)類(lèi),并且被預(yù)測(cè)為負(fù)類(lèi),即為真負(fù)類(lèi)TN(True Negative )2、準(zhǔn)確率(Accuracy) 準(zhǔn)確率是常用的一個(gè)評(píng)價(jià)指標(biāo),但是不適合樣本不均衡的情況。
Accuracy=TP+TNTP+TN+FP+FN{Accuracy=} \frac{TP+TN}{TP+TN+FP+FN} \quadAccuracy=TP+TN+FP+FNTP+TN?
3、精確率(Precision) 又稱(chēng)查準(zhǔn)率,正確預(yù)測(cè)為正樣本(TP)占預(yù)測(cè)為正樣本(TP+FP)的百分比。
Precision=TPTP+FP{Precision=} \frac{TP}{TP+FP} \quadPrecision=TP+FPTP?
4、召回率(Recall) 又稱(chēng)為查全率,正確預(yù)測(cè)為正樣本(TP)占正樣本(TP+FN)的百分比。
Recall=TPTP+FN{Recall=} \frac{TP}{TP+FN} \quadRecall=TP+FNTP?
5、F1 Score 精確率和召回率是相互影響的,精確率升高則召回率下降,召回率升高則精確率下降,如果需要兼顧二者,就需要精確率、召回率的結(jié)合F1 Score。
F1?Score=21precision+1recall{F1-Score=} \frac{2}{\frac{1}{precision} \quad+\frac{1}{recall} \quad} \quadF1?Score=precision1?+recall1?2?
6、P-R曲線(xiàn)(Precision-Recall Curve) P-R曲線(xiàn)是描述精確率和召回率變化的曲線(xiàn)- P-R 曲線(xiàn)是描述精確率和召回率變化的曲線(xiàn)
7、ROC(Receiver Operating Characteristic)
- ROC空間將假正例率(FPR)定義為 X 軸,真正例率(TPR)定義為 Y 軸。
- TPR:在所有實(shí)際為正例的樣本中,被正確地判斷為正例之比率。
TPR=TPTP+FN{TPR=} \frac{TP}{TP+FN} \quadTPR=TP+FNTP? - FPR:在所有實(shí)際為負(fù)例的樣本中,被錯(cuò)誤地判斷為正例之比率。
FPR=FPFP+TN{FPR=} \frac{FP}{FP+TN} \quadFPR=FP+TNFP?
8、AUC(Area Under Curve) AUC(Area Under Curve)被定義為 ROC曲線(xiàn) 下與坐標(biāo)軸圍成的面積,顯然這個(gè)面積的數(shù)值不會(huì)大于1。又由于ROC曲線(xiàn)一般都處于y=x這條直線(xiàn)的上方,所以AUC的取值范圍在0.5和1之間。AUC越接近1.0,檢測(cè)方法真實(shí)性越高;等于0.5時(shí),則真實(shí)性最低,無(wú)應(yīng)用價(jià)值。
金融風(fēng)控常用評(píng)價(jià)指標(biāo)
- KS(Kolmogorov-Smirnov) KS統(tǒng)計(jì)量由兩位蘇聯(lián)數(shù)學(xué)家A.N. Kolmogorov和N.V. Smirnov提出。在風(fēng)控中,KS常用于評(píng)估模型區(qū)分度。區(qū)分度越大,說(shuō)明模型的風(fēng)險(xiǎn)排序能力(ranking ability)越強(qiáng)。
KS=max(TPR?FPR){KS=}{max(TPR - FPR)}KS=max(TPR?FPR)
總結(jié)
以上是生活随笔為你收集整理的贷款违约预测--赛题理解的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 论文简读(二)
- 下一篇: 了解CUDA计算(一)