【数据竞赛】厦门国际银行 “数创金融杯”数据建模大赛-冠军分享
寫在前面
冠軍團隊:三位靚仔
成員介紹:團隊成員由當下國內(nèi)賽圈著名選手組成,一月三冠選手寧缺,賽圈網(wǎng)紅林有夕,以及最具潛力選手孫中宇組成。
首先還是非常感謝他們提供的冠軍方案分享,下面就一起來看看是如何大比分遙遙領(lǐng)先的。
賽題任務
信用風險是金融監(jiān)管機構(gòu)重點關(guān)注的風險,關(guān)乎金融系統(tǒng)運行的穩(wěn)定。在實際業(yè)務開展和模型構(gòu)建過程中,面臨著高維稀疏特征以及樣本不平衡等各種問題,如何應用機器學習等數(shù)據(jù)挖掘方法提高信用風險的評估和預測能力,是各家金融機構(gòu)積極探索的方向。本次競賽提供實際業(yè)務場景中的信貸數(shù)據(jù)作為建模的對象,希望能借此展現(xiàn)各參賽選手數(shù)據(jù)挖掘的實戰(zhàn)能力。
本次賽題給出20個非匿名的業(yè)務字段以及84個匿名字段,在極不平衡的樣本數(shù)據(jù)中,預測客戶是否會出現(xiàn)信用違約行為。
賽題難點
①數(shù)據(jù)的高維稀疏性導致數(shù)據(jù)的可利用性降低,給模型學習能力的提升帶來了困難;
②數(shù)據(jù)的極度不平衡,導致模型極其容易出現(xiàn)過擬合問題;
③匿名字段的處理:如何理解并使用匿名字段中潛在的業(yè)務意義;
④新舊數(shù)據(jù)探索:如何衡量新舊數(shù)據(jù)的差異,如何把握特征的新舊差異,以及如何構(gòu)建合適的驗證策略;
賽題數(shù)據(jù)
(1)數(shù)據(jù)總體概述?
本次數(shù)據(jù)共分為兩個數(shù)據(jù)集,train_x.csv、train_target.csv和test_x.csv,其中train_x.csv為訓練集的特征,train_target.csv為訓練集的目標變量,其中,為了增強模型的泛化能力,訓練集由兩個階段的樣本組成,由字段isNew標記。test_x.csv為測試集的特征,特征變量與訓練集一致。建模的目標即根據(jù)訓練集對模型進行訓練,并對測試集進行預測。
(2)數(shù)據(jù)字段說明
?a)為用戶基本屬性信息
id, target, certId, gender, age, dist, edu, job, ethnic, highestEdu, certValidBegin, certValidStop,
b) 借貸相關(guān)信息?loanProduct, lmt, basicLevel, bankCard, residentAddr, linkRela,setupHour, weekday,
c) 用戶征信相關(guān)信息?x_0至x_78以及ncloseCreditCard, unpayIndvLoan, unpayOtherLoan, unpayNormalLoan, 5yearBadloan 該部分數(shù)據(jù)涉及較為第三方敏感數(shù)據(jù),未做進一步說明。
評分指標
1. 初賽成績排名根據(jù)測試集的AUC確定。
2. 評分采用AB榜形式。排行榜顯示A榜成績,初賽和復賽結(jié)束后12小時切換成B榜單。B榜成績以選手提交的最高分為準。
3. 復賽成績=(101-初賽排名)*0.7+專家評定成績*0.3。專家評分將綜合參考解決方案中的創(chuàng)新性、復雜度、穩(wěn)定性等多項指標。專家委員會將為風控業(yè)務專家、科研機構(gòu)數(shù)據(jù)挖掘?qū)<业冉M成。
4. 決賽成績=復賽得分*0.6+決賽答辯成績*0.4。競賽最終排名由決賽成績排名確定?
客戶違約風險預測模型框架
上圖給出了整體的方案框架,
特征工程
在觀察訓練集與測試集樣本中我們發(fā)現(xiàn)測試集中出現(xiàn)的部分客戶貸款記錄是訓練集中所沒有的,這意味著訓練出來的模型將學習不到測試集中這部分貸款記錄信息,從而導致模型出現(xiàn)預測誤差。
根據(jù)特征的違約頻率分布可視化,可以明顯看到分布比較混亂。減少特征分布混亂的數(shù)據(jù)導致的噪聲問題,提高模型的學習能力。這類使用了分箱的方法,減少數(shù)值噪音,提高模型泛化性。
當學歷水平與最高學歷水平相等時,用戶違約率極低,僅有0.2273%,在一定程度上反應了客戶的信用水平。下面進行了更細粒度的特征挖掘。
長尾分布特征、匿名特征處理
在風控領(lǐng)域,標簽對主體特征(具體到ID)非常敏感,這和CTR領(lǐng)域類似,故我們通過構(gòu)造欺詐率特征來表征類別特征,獲得了極高的收益,該特征描述的是某個屬性,欺詐的概率。但在實際的構(gòu)建過程中,直接使用均值會造成標簽泄漏,這里我們采用Kfold方式進行欺詐率特征提取。
將訓練集分為5個fold,每個fold使用其余4個fold的欺詐率作為特征。
特征篩選
對全量訓練集五折交叉驗證后,在線下AUC指標增加的情況下,選取訓練集中isNew=1的數(shù)據(jù)集進行線下的五折交叉驗證,當線下AUC與線上AUC都增加時,才保留該部分特征。從而保證線下線上的一致性。
模型建立、調(diào)參、融合
XGBoost
將上述XGB框架構(gòu)造的特征工程加載到XGBoost模型中進行訓練,線上可以達到A榜TOP5的成績(線上AUC=0.816)。
CATBoost
將CATBoost構(gòu)造的特征工程加載到CATBoost模型中進行訓練,線上可以達到TOP5的成績(線上AUC=0.811)。
Rank加權(quán)幾何平均
創(chuàng)新點
①潛在的欺詐行為發(fā)現(xiàn)。
②偽標簽訓練集的構(gòu)建,增強了模型學習測試集的能力;
③挖掘了更細粒度的特征信息,更貼近實際的業(yè)務意義,特征解釋性強;
④雙重線下驗證的特征篩選,保證了模型的穩(wěn)定性;
往期精彩回顧適合初學者入門人工智能的路線及資料下載機器學習及深度學習筆記等資料打印機器學習在線手冊深度學習筆記專輯《統(tǒng)計學習方法》的代碼復現(xiàn)專輯 AI基礎下載機器學習的數(shù)學基礎專輯獲取一折本站知識星球優(yōu)惠券,復制鏈接直接打開:https://t.zsxq.com/yFQV7am本站qq群1003271085。加入微信群請掃碼進群:總結(jié)
以上是生活随笔為你收集整理的【数据竞赛】厦门国际银行 “数创金融杯”数据建模大赛-冠军分享的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【CVPR2020论文解读】300米远程
- 下一篇: 【机器学习基础】数学推导+纯Python