大数据风控用了什么模型?有效性如何?
目前貸款的風(fēng)控因為每一個樣本的收集都需要放款來收集,想想每人放一萬,一個億也就只能放1萬人,所以樣本量不會太大。所以所謂大數(shù)據(jù)風(fēng)控主要是大在特征的數(shù)據(jù)上。很多時候是用了很多傳統(tǒng)上不怎么敢用的特征。比如傳統(tǒng)風(fēng)控比較害怕missing value 比較害怕不穩(wěn)定的特征 這些都是大數(shù)據(jù)風(fēng)控需要解決的。
說到模型,既然是特征多,樣本少,那就需要一個非常抗過擬合的模型。另外如果是單獨針對反欺詐而不是信用,因為問題比較非線性,所以需要一個有非線性能力的模型。滿足這兩者要求的都可以。
當(dāng)然上面說到的只是針對預(yù)測貸款用戶好壞的二分類問題,至于很多風(fēng)控領(lǐng)域的其他問題,就有不同的解決方案了。
說到有效性。據(jù)我所知目前市場上有一些非常小額短期的產(chǎn)品已經(jīng)可以完全按照一個模型放款并盈利了。完全不需要人參與。這類產(chǎn)品通過小額解決了樣本少的問題。通過短期解決了收集label慢的問題。所以還不太容易推廣到大額長期產(chǎn)品上去。由于題主提出的問題圍繞著風(fēng)控模型,而討論模型必定和實際的應(yīng)用場景和數(shù)據(jù)源相關(guān),因此就前四個問題一并回答。
首先金融科技公司大致分為三類,基于線上垂直領(lǐng)域(教育、醫(yī)療、電商)、基于特定客群(學(xué)生、藍領(lǐng)、白領(lǐng))、基于線下場景(車貸、租房)。不同公司在數(shù)據(jù)維度、授信客群、產(chǎn)品上都有較大區(qū)別?;径?#xff0c;風(fēng)險主要集中于信用風(fēng)險及欺詐風(fēng)險。
在此簡單介紹下消費信貸產(chǎn)品在貸款各個環(huán)節(jié)風(fēng)控主要模型對兩類風(fēng)險的把控。
一、模型在信用風(fēng)險的用途:
1.授信準(zhǔn)入階段
首先是授信準(zhǔn)入階段,此階段最重要的模型是進件評分卡模型,數(shù)據(jù)來源主要分為申請信息、歷史消費信息、外部信息(例如多投借貸、公積金等)。常用模型包含LR、Xgboost、FFM等。不同模型的選取由是否需要在線更新、可解釋性、線上部署環(huán)境等多種因素決定。LR的研究非常成熟,有完整的工業(yè)分布式解決方案和在線增量學(xué)習(xí)的理論基礎(chǔ),包括各種帶正則項的變種,是非常理想的建模方法,很多時候它還會作為基準(zhǔn)型,用于評價復(fù)雜模型的提升效果。
一般的線性模型會遇到兩個問題:
一是非線性特征的學(xué)習(xí),比如年齡。一般使用的方法是進行變量離散化,把年齡分成不同的段或者使用稀疏編碼或者自編碼等算法對品類或者其他信息進行重構(gòu)。
二是交互影響,例如收入特征和年齡特征的交叉。高收入的中年人是干爹和干媽,高收入的年輕人是高富帥和白富美,兩者的特點完全不一樣。所以我們也會使用Xgboost等模型加工非線性特征,或使用FM/FFM類算法學(xué)習(xí)交叉特征,以此提升模型擬合能力。
此外在這個環(huán)節(jié)需要注意的是,由于很多公司的數(shù)據(jù)維度是有限的,分?jǐn)?shù)低的用戶并不一定是逾期風(fēng)險較高的,而可能僅僅是留下數(shù)據(jù)較少的用戶,隨著業(yè)務(wù)的逐步擴張,怎么再去找更多的維度或者在原有數(shù)據(jù)維度上構(gòu)建更細(xì)膩度的特征來刻畫之前無法覆蓋的用戶群體是關(guān)鍵。
其次由于黑產(chǎn)的猖獗,時刻需要提防刷分、養(yǎng)號的用戶,最好的解決方式是通過分析異常群體的行為,構(gòu)建有區(qū)分度的特征或者引入更多數(shù)據(jù)維度使得可以更加細(xì)膩的刻畫正常用戶的行為,最后還需要結(jié)合產(chǎn)品去完善模型。
業(yè)務(wù)擴張的時候,客群的分布可能發(fā)生較大變化,引起的概念漂移也是值得關(guān)注的。
2.用戶生命周期階段
當(dāng)用戶準(zhǔn)入后需要進行用戶生命周期管理,常用到模型是行為評分卡。
和準(zhǔn)入階段不一樣,在這個階段,用戶由于大多已經(jīng)有過至少一次的還款行為,因此可以在數(shù)據(jù)維度加入借貸數(shù)據(jù)。
除此之外,需要考慮如何調(diào)整額度和息費,保證優(yōu)質(zhì)的用戶得到更低的息費和更高的額度,而數(shù)據(jù)表現(xiàn)較差的用戶需要用更高的息費來覆蓋風(fēng)險。
但不顧風(fēng)險的一味最求高收益和不求收益的低風(fēng)險都是沒有意義的。定價模型的重點在于對用戶需求和風(fēng)險的合理預(yù)估,調(diào)整各個用戶群體的息費和額度檔次。實則可以看成對資金在不同風(fēng)險回報的分配,使得在一定的風(fēng)險下,總體風(fēng)險收益最大化,技術(shù)上會涉及很多帶約束的優(yōu)化問題。
3.催收階段
最后一個階段,一小部分用戶會逾期進入催收階段。
這個時期重點是失聯(lián)修復(fù)和催收評分卡,即刻畫用戶經(jīng)過一定的催收動作后還款的可能性。
失聯(lián)修復(fù)很好理解,就是通過各種社交數(shù)據(jù),建立起關(guān)系網(wǎng)絡(luò)找出與欠款人可能相關(guān)的人或者欠款人的其他聯(lián)系方式。而催收評分卡需要使用到催收數(shù)據(jù),催收數(shù)據(jù)大多是文本音頻類型文件備份,因此對這種非結(jié)構(gòu)類型數(shù)據(jù)的挖掘是這個階段的核心。
催收的時機,是催收成功最重要的因素。由于催收資源有限,我們需要按照一定的分配規(guī)則來分配催收資源。在逾期的較早時期,應(yīng)該將更多的資源放在較難催收的用戶上,而其他的用戶可能由于是忘記還款或者其他的非惡意拖欠原因沒有還錢,可能給予一段時間會自我救贖;而在催收晚期,則需要放置更多催收資源在能夠催回的用戶上,盡最大可能降低損失。
二、模型在反欺詐風(fēng)險方面的用途:
除了上述的信用風(fēng)險,還有一塊較大的職責(zé)就是欺詐風(fēng)險。
現(xiàn)階段,業(yè)界更多關(guān)注的是有組織參與的中介欺詐,常見的如批注、盜號、薅羊毛、養(yǎng)號、套現(xiàn)等諸多行為的識別。由于是團伙作案,更多是基于社交網(wǎng)絡(luò)的社團發(fā)現(xiàn)算法來對中介的識別,或者是利用套現(xiàn)中的地址集中性相似性等特點來識別中介,或使用時間序列算法來分析用戶的歷史行為軌跡,手機傳感器信息等生物指紋數(shù)據(jù)來核實身份。
欺詐風(fēng)險的難點有別于信用風(fēng)險,在較多場景下很難定義好壞用戶。因此關(guān)鍵在于標(biāo)簽的獲得。通常需要同案件調(diào)查人員配合,因為他們能夠準(zhǔn)確定義欺詐,同時能夠還原犯罪手法,針對于模型Y變量定義,X變量設(shè)計都很有幫助。
其次,由于對抗性強,因此如何檢測未發(fā)現(xiàn)的欺詐模式和模型的更新速度更加關(guān)鍵。目前這一塊工作業(yè)界發(fā)展都比較滯后。
最后,授信客群的變化或者欺詐團伙作案手法的變化導(dǎo)致原有模型可能失效,加上風(fēng)險的滯后性,最新可用的訓(xùn)練數(shù)據(jù)可能已經(jīng)離目前較遠,如何從最新的數(shù)據(jù)獲取模式與舊的數(shù)據(jù)模式的遺忘是難點。
三、補充
最后,補充如下幾點模型評測的注意事項:
1. 由于線下訓(xùn)練環(huán)境和線上真實用戶群體存在差異,模型的泛化能力很重要,需要確保模型學(xué)習(xí)到的是有區(qū)分度的模式而不是數(shù)據(jù)中的噪音。
2. 線下使用評測指標(biāo)主要是刻畫準(zhǔn)確度與區(qū)分度的ks、auc、洛倫茲曲線和Lift曲線等和模型穩(wěn)定性指標(biāo)psi。
3. 客群逾期率的高低和公司產(chǎn)品的形態(tài)有重要關(guān)系,短期提升可以通過反欺詐技術(shù)得到改善、而中長期需要依托信用風(fēng)險模型、但最終還得看產(chǎn)品的授信客群,面向不同客群的風(fēng)控模型的指標(biāo)對比試沒有意義的。
總結(jié)
以上是生活随笔為你收集整理的大数据风控用了什么模型?有效性如何?的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 安托协助美的,管控线上渠道
- 下一篇: azure 东南亚_为何东南亚应该拥抱开