手绘导图版:深入解析机器学习在风控场景中的8大应用
導讀:本文詳細梳理風控領域的基本概念,并將風控模型的使用場景分為8大板塊,逐一解析機器學習在其中的應用。
作者:梅子行
來源:大數據風控與機器學習
01 風控領域的特點
風控領域是新興的機器學習應用場景之一,其特點非常明顯:
負樣本占比極少,是均衡學習的算法的主戰場之一。有標簽樣本稀缺,從而使得半監督和無監督算法在風控場景下大放異彩。
業務對模型解釋性要求偏高。同時對時效性有一定要求,這要求在實際建模中要學會去權衡模型復雜度與精度,并且適當的優化算法內核。
業務模型多樣。每一個模型都和業務目標有著非常高的聯系,因此每一個從業者對業務和模型都有很好的理解,從而為業務定制合適的模型。
風控數據源豐富。圍繞著人展開的數據皆可用,而數據多樣帶來的就是新興技術的井噴,結構化數據、圖像、文本等等多個領域的方法都在風控領域有一定應用。
02 信用管理與風險控制
信用貸款的邏輯可以參見這幅漫畫:
信用好的小雞是可以賒賬的。面對平時信用較差的狐貍,貓老師則想辦法拒絕他的賒賬需求。這就是基本的信用價值。
信用管理主要分為兩個概念,信用和管理。信用意味著先買后付,即使用信用值預支金錢購買相應服務。而管理即通過用戶信息對用戶的信用度進行評估,并根據信用情況定制風險規避策略。所謂風險控制(風控),即針對用戶風險進行管理規避的過程。
03 風險分類
在信貸領域有兩類風險:一類是信用風險,一類是欺詐風險。
信用風險:指借款人的還款能力和還款意愿在貸款后出現問題。通常由于不可抗力因素導致用戶的經濟能力和思想狀態發生改變。
欺詐風險:指借款人的貸款目的不正當。在貸款初始便沒有還款計劃。多見于有組織有紀律的中介平臺。
一般情況下,借款人出現信用風險,金融機構可通過風險定價策略等手段進行防范,風險可控性較大。而借款人在一開始,就以騙貸為目的進行借貸并且貸款成功,則金融機構會造成相當一部分的損失。因為平臺不僅沒有盈利,還會被欺詐者騙走本金。
尤其在遇上團伙欺詐時,信貸業務會在短時間內遭受非常嚴重的打擊。金融機構面對欺詐風險幾乎毫無處置能力,因此欺詐檢測是信貸中的風險管控最重要的一環。
而風險的管控,主要依靠信貸領域的兩大類系統:一類是信用評分系統,另一類是欺詐檢測系統。信用評分系統是對借款人還款能力和還款意愿進行評估,針對的是信用風險。而欺詐檢測系統則是對借款人的目的是否正當進行判斷,針對的是欺詐風險。
1. 自動化規則挖掘
互聯網金融是傳統信貸業務在互聯網場景下的繼承與拓展?;ヂ摼W金融風控體系主要由三大部分組成:數據信息、策略體系、人工智能模型。
數據信息:包括用戶基本信息、用戶行為信息、用戶授權信息、外部接入信息。
策略體系:包括反欺詐規則、準入規則、運營商規則、風險名單、網貸規則。
人工智能模型:包括欺詐檢測模型、準入模型、授信模型、風險定價、額度管理、流失預警、失聯修復。優質策略的制定需要資深的業務經驗以及優秀的數據敏感度保駕護航。因此基于單變量分析以及專家思想從經驗出發的策略生成,是風控領域最常用的兩種方法。
然而對于多規則組合的探索優化以及具體規則的閾值確定,需要借助于決策樹(Decision Tree)模型。依托于基尼指數和均方差最小化原理對策略的組合進行貪心搜索,從而得到業務期望的優質策略。
2. 評分卡模型
信用評分模型的主要目的是為了衡量一個用戶的信用風險。相比于策略規則,評分模型的靈活度更高。不會根據某個變量直接對樣本群體進行“一刀切”,而是從多個角度進行綜合判定。
在數據源固化的情況下,模型的效果通常與特征工程直接相關。而業內有兩套相異的建模方法。一個是簡單特征工程與復雜模型結合。另一個是復雜特征工程與簡單模型結合。
在之前的漫畫中為什么貓老師不為狡猾的賒賬?
因為…
傳統的評分卡采用邏輯回歸模型,就是一種復雜特征工程與簡單模型結合的方法。簡單特征工程與復雜模型結合的例子有很多,如XGBoost、LightGBM、CNN、RNN、DeepFM等。集成模型在結構化數據上可以自動的實現特征交叉組合。但仍需要部分人工特征工程以保證模型效果。
而深度學習作為一種表示學習方法,可以自動的抽取數據中的重要信息,其在部分結構化數據上也有較好的表現。復雜模型的優點在于其對新手更加友好,且相比于人工特征工程,其效果通常更好。缺點是對數據量和計算資源的要求較高。否則難以收斂。
對于復雜模型在風控領域的應用,其最大的問題還在于貸前審批對模型的解釋性要求極高,因此對于復雜模型解釋性的問題,也需要進行額外關注。SHAP作為一種擁有一致性的特征貢獻評判方法,根據訓練樣本的子集計算整體模型預測均值,可以提供復雜模型中的特征影響期望。對于復雜模型的解釋有大幫助。
3. 項目冷啟動
冷啟動,指在沒有或只有很少量數據的情況下,從0到1建立業務模型的過程。對于冷啟動,基本準則為策略先行,模型為輔。由于策略分析以及模型訓練都必須有一定的數據積累,在冷啟動業務中,缺乏數據困擾著很多從業者。
近年來,研究者們提出了多種實現域自適應的模型和算法,本文介紹其中比較常用的三大類算法。
第一類方法:對源域中的樣本賦予某種權重,使其分布靠近目標域。
第二類方法:尋找一個低維子空間,使得源域和目標域的數據樣本在映射到該子空間后服從相同或相近的分布。
第三類方法:利用低秩矩陣重構數據點,實現域之間的魯棒自適應。
部分遷移模型的主要作用為對源域樣本進行篩選,從而用于目標域的策略輔助決策。因此即使業務需求是在線上部署策略,遷移模型對其線下分析也有很大幫助。而對于初步數據積累的場景,遷移學習大多可以有效的輔助模型進行決策優化。
4. 幸存者偏差
幸存者偏差(SurvivorshipBias)與樣本不均衡(Imbalance Learning)問題都是由于風控模型的拒絕屬性導致的。但表現形式略有不同。幸存者偏差是指,每次模型迭代時,使用的樣本都是被前一個模型篩選過的,從而導致的樣本空間不完備。
只有高于前一版模型分數閾值的樣本,才可以進入當前模型進行訓練,這些人就是幸存者。他們不攜帶或者很少攜帶被拒絕的人的信息,導致樣本逐漸偏離真實分布。如下圖所示。
只有綠色樣本出現在樣本集中,這些綠色的點即為幸存者。而灰色樣本由于被模型拒絕,導致未被模型觀察到。根據有偏差的樣本集學習得到的模型,在應對沒能被表征的人群時,很難給出準確的結果。久而久之,隨著模型迭代,區分能力強的特征被弱化,甚至對模型起到完全相反的作用(如某個特征的權重系數由正數變為負數)。
因此,需要使用無偏樣本進行修正。在該場景下,遷移學習、增量學習(Incremental Learning)、生成對抗網絡(GenerativeAdversative Nets,GAN)、高斯聚類模型(GaussianMixture Model,GMM)、半監督學習等都有一定應用。
5. 不均衡學習
通常二分類機器學習任務,期望兩種類別的樣本是均衡的,即兩類樣本的總量接近相同。因為在梯度下降過程中,不同類別的樣本量有較大差異時,很難收斂到最優解。但在很多真實場景下,數據集往往是不平衡的。也就是說,在數據集中,有一類含有的數據要遠遠多于其他類的數據。
尤其是在風控場景下,負樣本的占比要遠遠小于正樣本的占比。通常的思想是從現有數據出發,通過加權或構造更多的相似數據用于樣本均衡訓練。因此代價敏感學習、遷移學習、多種采樣算法、半監督學習在該領域均有一定應用。
6. 異常檢測
離群點是指樣本空間中,分布遠離其余樣本的點的集合。通常認為樣本集由真實數據和噪聲組成。離群點是和大部分觀測量之間有明顯不同的觀測值,屬于樣本集中的一部分,它既有可能是真實數據產生的,也有可能是噪聲帶來的。
噪聲被定義為被測量的變量的隨機誤差或方差。而離群點的定義是數據集中包含一些數據對象,它們偏離整體數據集的趨勢。
而噪聲普遍被認為是正常數據和異常的邊界,可以視為一種離群點,但未必能達到異常的標準。大多異常檢測算法需要指定量化指標,來度量樣本點的離群程度。通常情況下,異常的離群程度是大于噪聲的。然而在實際應用中,兩者并不容易區分。
欺詐檢測可以細分為個體欺詐檢測與團伙欺詐檢測。其中個體欺詐具有占比極小、與整體顯著不同的特點。這與離群點的性質相同。因此常將異常檢測技術用于個體欺詐檢測。在實踐中,配合相關的業務經驗,可以達到較好的效果。
然而無監督模型的建模難點并不在于模型,而在于特征的選取。由于沒有標簽,因此特征的構造并不能通過數據分析手段進行,通常需要結合領域知識進行精準的特征構造。
7. 模型優化
為了在信用評分模型中取得較好的表現,通常要經歷數據清洗、特征工程、模型組合三個步驟。
模型組合,是指根據不同的數據或模型特點,選擇合適的模型訓練,再將多個模型進行融合,從而直接或間接地提升模型在未來樣本上的表現。如動態數據源模型組合就是一種組合優化方法。
此外,還有多損失函數適應性組合、決策樹與線性模型組合、深度學習與圖算法組合等方法。
8. 網絡挖掘
知識圖譜是用于識別團伙欺詐的主要手段,它采用基于圖的數據結構,以圖的方式存儲知識并返回經過加工和推理的關聯信息。
知識圖譜在金融領域的主要應用場景有欺詐檢測、信用評級、失聯管理等。工業界常用的網絡挖掘方法包括:計算節點屬性、社區發現算法、節點分類算法、網絡表示學習等。
通過網絡中的中心度和相似度計算,可以進行基本的團伙欺詐檢測規則抽取。比如在網絡中中心度超過某一閾值或者和其他節點的相似度超過某一閾值,即會觸發預警。但是通過對每一個樣本進行遍歷的比對相似度,是一種非常低效的做法,實際中更常使用的是社區發現算法。
而每一個節點的二度聯系人和三度聯系人,可以作為用戶失聯后的潛在聯系人。由于用戶失聯后,貸后管理人員無法進行適當的施壓,通過網絡輸出多度聯系人,成為了當前失聯補全模型的主要手段。
此外,每一個節點的中心度也可以抽取出來,放入風控模型中作為一種來源于知識圖譜的信息,與其他類型的數據一同建立監督模型。類似的方法還有網絡表示學習,如隨機游走、圖卷積神經網絡等。
關于作者:梅子行,系列暢銷書《智能風控》作者。歷任多家知名金融科技公司風控算法研究員、數據挖掘工程師等職位?,F供職于智能物流獨角獸——滿幫科技。師承Experian、Discover等頂級風控專家。擅長深度學習、復雜網絡、遷移學習、異常檢測等非傳統機器學習方法。熱衷于數據挖掘以及算法的跨領域優化實踐。公眾號與知乎專欄:“大數據風控與機器學習”。
文章內容整理自梅子行老師的手繪風系列書籍——《智能風控》中的《智能風控:原理、算法與工程實踐》一書。
延伸閱讀《智能風控:原理、算法與工程實踐》
推薦語:資深專家,基于Python,原理、算法、實踐3維度講解機器學習的風控實踐,21種算法26種解決方案,9位專家推薦
有話要說????
Q:?機器學習還有哪些神應用?
歡迎留言與大家分享
猜你想看????
手把手教你用Python畫直方圖:其實跟柱狀圖完全不同
無處不在的流計算到底是什么?終于有人講明白了(附導圖)
曾成功預測H1N1病毒疫情,細數這些年大數據的神應用
騰訊阿里都在用!機器學習最熱研究方向入門,附學習路線圖
更多精彩????
在公眾號對話框輸入以下關鍵詞
查看更多優質內容!
PPT?|?讀書?|?書單?|?硬核?|?干貨?
大數據?|?揭秘?|?Python?|?可視化
AI?|?人工智能?|?5G?|?中臺
機器學習?|?深度學習?|?神經網絡
合伙人?|?1024?|?大神?|?數學
據統計,99%的大咖都完成了這個神操作
????
總結
以上是生活随笔為你收集整理的手绘导图版:深入解析机器学习在风控场景中的8大应用的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 键值数据库LevelDB的优缺点及性能分
- 下一篇: 揭秘“21世纪最性感的职业”:数学、编程