【采用】机器学习在金融大数据风险建模中的应用
本文在傳統(tǒng)風(fēng)險(xiǎn)模型體系的基礎(chǔ)上,嫁接邏輯回歸和決策樹模型建立T-L模型,并結(jié)合Random Forest模型完善模型結(jié)構(gòu)。采用T-L核模型替代RF模型中的傳統(tǒng)決策樹模型,將RF模型和T-L核模型結(jié)合,建立了ScoreNet模型體系。既大大提升了風(fēng)險(xiǎn)模型區(qū)分能力,也保證了模型結(jié)構(gòu)的清晰和評(píng)分廣泛的應(yīng)用。
【關(guān)鍵詞】大數(shù)據(jù)風(fēng)控??T-L模型??Random?Forest??ScoreNet
1.選題背景及意義
目前,央行的個(gè)人征信中心收錄的自然人數(shù)達(dá)8.6億多人,但其中僅有3億多人有信貸記錄,同時(shí)信貸記錄主要來源于商業(yè)銀行和農(nóng)村信用社等金融機(jī)構(gòu),在數(shù)據(jù)時(shí)效性、全面性和層次性上存在嚴(yán)重短板。因此深度挖掘互聯(lián)網(wǎng)大數(shù)據(jù)信息,開發(fā)大數(shù)據(jù)風(fēng)控模型,彌補(bǔ)央行個(gè)人征信信息的不足,在互聯(lián)網(wǎng)金融蓬勃發(fā)展的今天尤為重要。
無論是線上還是線下的用戶消費(fèi)、社交數(shù)據(jù),都有著不同于傳統(tǒng)征信信息的獨(dú)有特征:
數(shù)據(jù)的稀疏性強(qiáng)(用戶線上線下的行為散布廣泛,極難全量收集和覆蓋;用戶行為偏好亦各有不同,在不同門類的行為差異很大,因此數(shù)據(jù)的稀疏性極為明顯。一般情況下,用戶行為信息的缺失率均超過50%);
數(shù)據(jù)覆蓋面廣(信息覆蓋面廣泛,支付寶或微信都有超4億活躍用戶,用戶行為覆蓋服裝、書籍、租房、休閑、娛樂等各方面,單指標(biāo)維度超過1000個(gè));
單變量風(fēng)險(xiǎn)區(qū)分能力弱(不同于傳統(tǒng)風(fēng)險(xiǎn)模型采用的歷史履約情況,個(gè)人資產(chǎn)評(píng)估等強(qiáng)變量,消費(fèi)或社交變量一般均為區(qū)分能力較弱的弱變量)。
傳統(tǒng)信用風(fēng)險(xiǎn)評(píng)估模型在業(yè)務(wù)邏輯架構(gòu)下,利用數(shù)據(jù)驅(qū)動(dòng)或?qū)<医?jīng)驗(yàn)開發(fā)模型模板,最終結(jié)合統(tǒng)計(jì)分析模型(邏輯回歸、判別分析等)得到精準(zhǔn)的計(jì)量結(jié)果。然而在新的數(shù)據(jù)畫像和業(yè)務(wù)情景下,不僅喪失了原有的業(yè)務(wù)邏輯框架,更使得傳統(tǒng)統(tǒng)計(jì)分析模型的應(yīng)用受到嚴(yán)重限制。近年來,機(jī)器學(xué)習(xí)技術(shù)得到飛速的發(fā)展,在信息識(shí)別、推薦引擎等領(lǐng)域都取得了出色的應(yīng)用效果,大量實(shí)驗(yàn)結(jié)果證明機(jī)器學(xué)習(xí)模型有著良好的魯棒性和泛化性。但機(jī)器學(xué)習(xí)模型的模型邏輯極為復(fù)雜,很難把控模型的真實(shí)效果,也不易于直觀展示和解釋變量的風(fēng)險(xiǎn)特性。如何結(jié)合傳統(tǒng)風(fēng)險(xiǎn)評(píng)估模型體系和機(jī)器學(xué)習(xí)技術(shù),在保證業(yè)務(wù)邏輯和評(píng)分廣泛應(yīng)用的前提下,更加精準(zhǔn)的評(píng)估風(fēng)險(xiǎn)已經(jīng)成了新一代信用風(fēng)險(xiǎn)模型體系建設(shè)的核心課題。
2.文獻(xiàn)綜述
David?Durand(1941)在信用評(píng)分領(lǐng)域首先使用判別分析,預(yù)測(cè)貸款者的還貸情況;20世紀(jì)50年代,Bill?Fair和Earl?Isaac發(fā)明了基于logistics回歸模型的FICO信用評(píng)分體系,得益于清晰的業(yè)務(wù)邏輯和解釋性,該評(píng)分體系逐漸成為了最為廣泛應(yīng)用的風(fēng)險(xiǎn)模型體系。然而無論是邏輯回歸還是判別分析模型,都主要針對(duì)線性問題,無法對(duì)變量的非線性結(jié)構(gòu)進(jìn)行分析,同時(shí)對(duì)數(shù)據(jù)完整性和有效性要求較高,對(duì)數(shù)據(jù)噪聲亦比較敏感,不適用于大數(shù)據(jù)背景下的模型開發(fā)和集成。
McCulloch,?Warren;?Walter?Pitts(1943)[1]提出了神經(jīng)網(wǎng)絡(luò)模型,取得了十分廣泛的應(yīng)用,并首次描繪了機(jī)器學(xué)習(xí)理論的雛形;Ray?Solomonoff(1956)?[2]在An?Inductive?Inference?Machine一文中,首度提出了機(jī)器學(xué)習(xí)的概念;Aizerman,?Mark?A.;?Braverman,?Emmanuel?M.;?and?Rozonoer,?Lev?I.?(1964)[3]在統(tǒng)計(jì)學(xué)習(xí)領(lǐng)域的研究中提出了應(yīng)用最為廣泛的機(jī)器學(xué)習(xí)模型支持向量機(jī)(SVM);Breiman,?Leo?(1996)[4]、Michael?Kearns(1988)[5]、Ho,?Tin?Kam?(1995)[6]提出了集成學(xué)習(xí)算法:Bagging、Boosting、Random?Forest,完美的解決了傳統(tǒng)機(jī)器學(xué)習(xí)算法過度擬合的困境,使得算法的穩(wěn)定性、泛化性和魯棒性都有了顯著的提高。近年來,機(jī)器學(xué)習(xí)算法在圖像識(shí)別、語(yǔ)音識(shí)別、信息檢索、推薦引擎、非結(jié)構(gòu)化數(shù)據(jù)挖掘等領(lǐng)域都取得了突破性的進(jìn)展。推薦算法與風(fēng)險(xiǎn)模型的一致性,及GBDT[7]和Random?Forest在推薦算法上優(yōu)異表現(xiàn),為我們研究金融大數(shù)據(jù)風(fēng)險(xiǎn)模型提供了新的方向和挑戰(zhàn)。然而無論是單一機(jī)器學(xué)習(xí)算法,還是集成學(xué)習(xí)算法都有著復(fù)雜的模型結(jié)構(gòu),這種復(fù)雜的結(jié)構(gòu)不僅使模型喪失了解釋性,而且限制了專業(yè)模型分析人員對(duì)模型的把控能力,很難實(shí)現(xiàn)真正意義上的廣泛的應(yīng)用。
3.研究的理論框架與模型建設(shè)
本文在傳統(tǒng)風(fēng)險(xiǎn)模型體系的基礎(chǔ)上,嫁接邏輯回歸和決策樹模型建立T-L模型,并結(jié)合Random?Forest模型完善模型結(jié)構(gòu),建立了ScoreNet模型。既大大提升了風(fēng)險(xiǎn)模型區(qū)分能力,也保證了業(yè)務(wù)邏輯的清晰和評(píng)分廣泛的應(yīng)用。
3.1.T-L核模型
傳統(tǒng)信用風(fēng)險(xiǎn)評(píng)估模型在業(yè)務(wù)邏輯架構(gòu)下分析變量的基本屬性及風(fēng)險(xiǎn)區(qū)分能力,用邏輯回歸等統(tǒng)計(jì)分析模型進(jìn)行量化分析,得到精準(zhǔn)的風(fēng)險(xiǎn)計(jì)量結(jié)果。然而用戶行為數(shù)據(jù)獨(dú)有的稀疏性會(huì)使得統(tǒng)計(jì)模型極不穩(wěn)定。決策樹對(duì)局部數(shù)據(jù)分析有著極強(qiáng)的穩(wěn)定性和魯棒性,同時(shí)可以揭示變量風(fēng)險(xiǎn)區(qū)分能力的非線性結(jié)構(gòu)關(guān)系。因此我們將決策樹模型和邏輯回歸模型進(jìn)行嫁接,建立T-L核模型。即在進(jìn)行統(tǒng)計(jì)建模前添加一層決策樹模型進(jìn)行單變量分析,同時(shí)利用CHAID決策樹生成二元決策樹變量,然后將決策樹模型的輸出結(jié)果(單變量、交叉變量及二元決策樹變量)一同導(dǎo)入邏輯回歸模型中進(jìn)行統(tǒng)計(jì)建模,確定所有風(fēng)險(xiǎn)因子的風(fēng)險(xiǎn)權(quán)重。
3.1.1.決策樹模型
在決策樹各種算法中,CHAID[8](Chi-Squared?Automatic?Interaction?Detection)既適用于二值型變量,也適用于連續(xù)型變量。針對(duì)每一次分叉,CHAID對(duì)二元響應(yīng)和連續(xù)型目標(biāo)變量分別采用了卡方和F檢驗(yàn)。因此在本文中,選擇CHAID算法作為決策樹算法。
CHAID算法以因變量為根結(jié)點(diǎn),對(duì)每個(gè)自變量(只能是分類或有序變量,也就是離散性的,如果是連續(xù)變量,如年齡,收入要定義成分類或有序變量)進(jìn)行分類,產(chǎn)生一系列二維表,然后分別計(jì)算所生成二維表的卡方統(tǒng)計(jì)量或F統(tǒng)計(jì)量。如果因變量(目標(biāo)變量)是定類變量(例如PD模型),則采用卡方檢驗(yàn)(Chi-Square-Test);如果因變量是定距變量(例如LGD,EAD模型),則采用F檢驗(yàn)(F-Test)。如果幾個(gè)備選變量的分類均顯著,則比較這些分類的顯著程度(P值的大小),然后選擇最顯著的分類變量以及劃分作為子節(jié)點(diǎn)。
3.1.2.邏輯回歸模型
邏輯回歸模型[9]是因變量服從二項(xiàng)分布,且自變量的線性預(yù)測(cè)與因變量的logit變換相連接的一種廣義線性模型[10],具體數(shù)學(xué)表達(dá)式為:
?
由此可以得到
?
理論可以證明,如果樣本的分布服從多元正態(tài)分布,那么該樣本正好符合對(duì)數(shù)回歸的假設(shè)。對(duì)數(shù)模型的誤差項(xiàng)服從二項(xiàng)分布,因此,在擬合時(shí)采用最大似然估計(jì)法進(jìn)行參數(shù)估計(jì)要比最小平方誤差法估計(jì)。
3.2.?Random?Forest模型
3.2.1.Random?Forest的基本原理
隨機(jī)森林是由美國(guó)科學(xué)家Leo?Breiman將其在1996年提出的Bagging集成學(xué)習(xí)理論[4]與Ho在1998年提出的隨機(jī)子空間方法[11]相結(jié)合,于2001年發(fā)表的一種機(jī)器學(xué)習(xí)算法[12]。隨機(jī)森林是以決策樹為基本分類器的一個(gè)集成學(xué)習(xí)模型,它包含多個(gè)由Bagging集成學(xué)習(xí)技術(shù)訓(xùn)練得到的決策樹,當(dāng)輸入待分類的樣本時(shí),最終的分類結(jié)果由單個(gè)決策樹的輸出結(jié)果投票決定,如下圖所示。隨機(jī)森林克服了決策樹過擬合問題,對(duì)噪聲和異常值有較好的容忍性,對(duì)高維數(shù)據(jù)分類問題具有良好的可擴(kuò)展性和并行性。此外,隨機(jī)森林是由數(shù)據(jù)驅(qū)動(dòng)的一種非參數(shù)分類方法,只需通過對(duì)給定樣本的學(xué)習(xí)訓(xùn)練分類規(guī)則,同時(shí)亦不需要分類的先驗(yàn)知識(shí)。
?
隨機(jī)森林是以K個(gè)決策樹為基本分類器,進(jìn)行集成學(xué)習(xí)后得到的一個(gè)組合分類器。當(dāng)輸入待分類樣本時(shí),隨機(jī)森林輸出的分類結(jié)果由每個(gè)決策樹的分類結(jié)果簡(jiǎn)單投票決定。這里的
是一個(gè)隨機(jī)變量序列,它是由隨機(jī)森林的兩大隨機(jī)化思想決定的:
(1)Bagging思想:從原樣本集X中有放回地隨機(jī)抽取K個(gè)與原樣本集同樣大小的訓(xùn)練樣本集(每次約有37%的樣本未被抽中),每個(gè)訓(xùn)練樣本集構(gòu)造一個(gè)對(duì)應(yīng)的決策樹。
(2)特征子空間思想:在對(duì)決策樹每一個(gè)節(jié)點(diǎn)進(jìn)行分裂時(shí),從全部屬性中等概率隨機(jī)抽取一個(gè)屬性子集,再?gòu)倪@個(gè)子集中選擇一個(gè)最優(yōu)屬性來分裂節(jié)點(diǎn)。
由于構(gòu)建每個(gè)決策樹時(shí),隨機(jī)抽取訓(xùn)練樣本集和屬性子集的過程都是獨(dú)立的,且總體都是一樣的,因此
?
是一個(gè)獨(dú)立同分布的隨機(jī)變量序列。
訓(xùn)練隨機(jī)森林的過程就是訓(xùn)練各個(gè)決策樹的過由于各個(gè)決策樹的訓(xùn)練是相互獨(dú)立的,因此隨機(jī)森林的訓(xùn)練可以通過并行處理來實(shí)現(xiàn),這將大大提高生成模型的效率。隨機(jī)森林中第
?
訓(xùn)練過程如下圖所示。
?
將以同樣的方式訓(xùn)練得到K個(gè)決策樹組合起來,就可以得到一個(gè)隨機(jī)森林。當(dāng)輸入待分類的樣本時(shí),隨機(jī)森林輸出的分類結(jié)果由每個(gè)決策樹的輸出結(jié)果進(jìn)行簡(jiǎn)單投票(即取眾數(shù))決定。
3.2.2.Random?Forest模型的缺陷及改進(jìn)方向
不難證明隨機(jī)森林的泛化性誤差的上界[12]為:
3.3.?ScoreNet模型
本文引入3.1中建立的T-L核模型替代3.2中RF模型中的傳統(tǒng)決策樹模型,將RF模型和T-L核模型結(jié)合,建立了ScoreNet模型體系。
?
ScoreNet模型以傳統(tǒng)模型為基礎(chǔ)搭建,保留傳統(tǒng)模型的業(yè)務(wù)解釋性和穩(wěn)定性。
ScoreNet模型以隨機(jī)森林模型為基本架構(gòu)搭建了隨機(jī)模型,客服了傳統(tǒng)模型對(duì)數(shù)據(jù)噪聲亦比較敏感的缺陷,使模型的泛化性與穩(wěn)定性有了進(jìn)一步的提高。
ScoreNet模型客服了傳統(tǒng)模型一般只能容納10-15個(gè)變量的缺陷,模型可以涵蓋100+個(gè)變量。可以從源頭杜絕用戶刷分現(xiàn)象,提升模型的公信力。
ScoreNet模型的在應(yīng)用層面的高度穩(wěn)定性與業(yè)務(wù)解釋性,使其有著比純粹機(jī)器學(xué)習(xí)模型更廣泛的應(yīng)用空間。
4.模型開發(fā)與結(jié)果分析
本文通過互聯(lián)網(wǎng)爬蟲技術(shù)及第三方合作機(jī)構(gòu)通過跨商家、瀏覽器、設(shè)備、微信進(jìn)行實(shí)時(shí)互聯(lián)網(wǎng)數(shù)據(jù)采集分析,包括但不限于:商品消費(fèi)行為采集與挖掘、資訊、社區(qū)與視頻閱覽行為采集與挖掘、O2O消費(fèi)行為采集與挖掘、高單價(jià)商品消費(fèi)行為采集與挖掘、金融服務(wù)行為采集與挖掘等。
通過各渠道數(shù)據(jù)采集與挖掘形成用戶全方位的畫像數(shù)據(jù)(如:人口統(tǒng)計(jì)學(xué)標(biāo)簽、用戶通用標(biāo)簽、資產(chǎn)價(jià)值標(biāo)簽、消費(fèi)行為喜好、閱讀喜好標(biāo)簽、金融服務(wù)標(biāo)簽、社交圈標(biāo)簽等),進(jìn)而了解用戶全方位屬性信息。
本文采用大數(shù)據(jù)風(fēng)險(xiǎn)模型ScoreNet技術(shù),針對(duì)身份信息核查、穩(wěn)定性信息、金融申請(qǐng)信息、資產(chǎn)評(píng)估信息、商品消費(fèi)信息、媒體閱覽信息等6大維度對(duì)用戶違約風(fēng)險(xiǎn)進(jìn)行評(píng)估。
?
4.1數(shù)據(jù)分析
4.1.1.數(shù)據(jù)采集
本文采集了:身份信息核查、穩(wěn)定性信息、金融申請(qǐng)信息、重要資產(chǎn)信息、商品消費(fèi)信息、媒體閱覽信息等6大維度近1000個(gè)子項(xiàng)的互聯(lián)網(wǎng)數(shù)據(jù)。
?
從模型表現(xiàn)可看出模型在不同樣本上皆具備一定程度的區(qū)分能力,表示其穩(wěn)定性高,未來應(yīng)用時(shí)能適應(yīng)不同的人群。
?
4.3模型結(jié)果對(duì)比分析
傳統(tǒng)模型與ScoreNet模型對(duì)比分析結(jié)果:
?
傳統(tǒng)模型與機(jī)器學(xué)習(xí)模型(Random Forest)對(duì)比分析結(jié)果:
?
模型對(duì)比分析結(jié)果顯示,ScoreNet模型較傳統(tǒng)模型(Logistics)在區(qū)分能力上有了較大幅度的提高,可提升KS/AR值約0.05,同時(shí)延續(xù)了傳統(tǒng)模型(Logistics)的穩(wěn)定性和解釋性;ScoreNet模型較純粹機(jī)器學(xué)習(xí)模型(Random?Forest)在穩(wěn)定性、泛化性上有著絕對(duì)的優(yōu)勢(shì),區(qū)分能力也更加優(yōu)越。
?
5.應(yīng)用分析及方案建議
5.1.征信多元化與風(fēng)險(xiǎn)量化
傳統(tǒng)金融機(jī)構(gòu)的征信信息來源主要是央行征信,但央行征信僅有3億多人有信貸記錄,信貸記錄又主要來源于商業(yè)銀行和農(nóng)村信用社等金融機(jī)構(gòu)。隨著互聯(lián)網(wǎng)不斷滲入人們生活,互聯(lián)網(wǎng)行為數(shù)據(jù)是央行征信的有效補(bǔ)充,可以不斷強(qiáng)化征信數(shù)據(jù)的時(shí)效性、全面性和層次性,從無形中記錄用戶的行為,去偽存真,還原真實(shí)的客戶?。從而大大提升信息的利用率和有效性。
同時(shí),大數(shù)據(jù)風(fēng)險(xiǎn)模型的應(yīng)用,可以不斷提高金融機(jī)構(gòu)風(fēng)險(xiǎn)識(shí)別、計(jì)量能力。從而不斷完善征信信息體系架構(gòu),為精細(xì)化風(fēng)險(xiǎn)定價(jià)提供必要的基礎(chǔ)和土壤。
?
5.2.授信審批決策/自動(dòng)化審批
傳統(tǒng)上,金融機(jī)構(gòu)的授信審批決策主要依賴于信貸人員的主觀經(jīng)驗(yàn)和判斷,缺乏統(tǒng)一的標(biāo)準(zhǔn),不利于金融機(jī)構(gòu)整體風(fēng)險(xiǎn)政策的執(zhí)行。隨著大數(shù)據(jù)模型開發(fā)技術(shù)與內(nèi)部評(píng)級(jí)體系建設(shè)的深度融合,金融機(jī)構(gòu)可更加廣泛和全面地將評(píng)分/評(píng)級(jí)結(jié)果應(yīng)用于授信審批,為貸款決策提供參考和支持。
大數(shù)據(jù)風(fēng)險(xiǎn)模型優(yōu)秀的風(fēng)險(xiǎn)排序及區(qū)分能力能夠大力推進(jìn)自動(dòng)化審批的進(jìn)程及線上產(chǎn)品的改革與創(chuàng)新。對(duì)模型評(píng)分高于一定級(jí)別且滿足其它授信決策條件的,授信申請(qǐng)可以自動(dòng)通過,不需要再經(jīng)人工審核,對(duì)于評(píng)分低于一定級(jí)別的,模型自動(dòng)拒絕其申請(qǐng);只有模型評(píng)分介于以上兩者之間的客戶,才由人工介入進(jìn)行申請(qǐng)審核。
?
5.3風(fēng)險(xiǎn)監(jiān)控與預(yù)警
風(fēng)險(xiǎn)監(jiān)控與預(yù)警是指借助各類信息來源或渠道,通過對(duì)數(shù)據(jù)與信息進(jìn)行整合與分析,運(yùn)用定量和定性分析相結(jié)合的方法來發(fā)現(xiàn)授信客戶及業(yè)務(wù)的早期風(fēng)險(xiǎn)征兆,準(zhǔn)確識(shí)別風(fēng)險(xiǎn)的類別、程度、原因及其發(fā)展變化趨勢(shì),并按規(guī)定的權(quán)限和程序?qū)栴}授信采取針對(duì)性處理措施,以及時(shí)防范、控制和化解授信風(fēng)險(xiǎn)的一系列管理過程。
大數(shù)據(jù)風(fēng)險(xiǎn)模型較傳統(tǒng)內(nèi)部評(píng)級(jí)體系更為精細(xì)和靈敏,可以快速識(shí)別貸后風(fēng)險(xiǎn),為不同的用戶設(shè)定不同的監(jiān)控頻率、自動(dòng)篩選高風(fēng)險(xiǎn)客戶,制定有針對(duì)性的貸后管理措施、貸后管理工作等。
總結(jié)
以上是生活随笔為你收集整理的【采用】机器学习在金融大数据风险建模中的应用的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: python评分卡建模-卡方分箱
- 下一篇: 【机器学习】--模型评估指标之混淆矩阵,