如何构建 FinTech 科学反欺诈体系|架构师实践日
如何構建 FinTech 科學反欺詐體系|架構師實踐日
摘自公眾號:七牛云發布時間:2017-4-11 21:28:33FinTech,即 Finance+Technology 的縮寫,英文原意是“金融科技”。FinTech 利用云計算、大數據、移動互聯等新興技術對傳統金融進行改造、革新乃至顛覆,從而提供更為普惠的金融服務。它所帶來的,除了更高效的金融服務和生產效率,還會創造全新的生活方式。王婷就「如何構建 FinTech 科學反欺詐體系」這一話題,為大家帶來滿滿的干貨分享,以下是對她演講內容的整理。
王婷 宜人貸數據科學家
計算機專業博士,現任宜人貸數據科學家,在數據挖掘、大規模社交網絡分析、機器學習、知識圖譜等領域有豐富的研究和實踐經驗,致力于金融反欺詐模型建模工作,搭建自動化個人信用風險分析系統,利用整合多種數據源和知識圖譜技術幫助線上金融服務進行實時、快速、準確的風險識別與響應。
如何構建FinTech科學反欺詐體系?
一、FinTech金融科技企業面臨的欺詐風險
圖 1
如圖 1 是個人對個人的信用貸款,它其實是服務于兩端的,理財人群和借款人群。投資人會把錢投資到平臺的一個公有賬戶上,然后通過平臺的撮合服務快速對接到借款人的需求,而且為了分散風險,一個投資人的資金會對接給多個借款人,一個借款人的資金也來自于多個投資人。在這些場景下需要非常多機器學習和數據挖掘的技術來幫助提升運營效率和進行風險控制,比如做轉化率的預測分析、如何給用戶推薦更優質的產品。而在這其中對于金融最重要的就是反欺詐體系,由于整個信用貸款流程用戶都可以直接在手機上操作,不需要提供紙質的資料,為了用戶的體驗不僅在判別速度上要夠快,另外對客戶的了解也從面對面交談轉移到移動數據,加大了反欺詐識別的挑戰。
圖 2
從線下到線上的借款流程和評估的機制都是不一樣的。線下模式客戶會到門店柜臺,需要提供各種各樣的紙質資料,比如工資流水、房產證明等等,周期會比較長。宜人貸在線上申請評估時,用戶可以通過提供一些移動端的授權數據,在 10 分鐘之內就可以評估完這個用戶的信用,信用好的客戶可立即通過申請,獲得相應的借款額度和費率。
整個線上申請過程(圖 2),無法像原先線下的銷售人員一樣,能夠通過和客戶面對面交流來判斷資料是否屬實以及客戶的還款意愿。由此可見,欺詐風險是互聯網金融線上信貸工廠模式最大的挑戰。
|信用風險和欺詐風險的區別
圖 3
簡單說一下信用風險和欺詐風險的區別(圖 3),信用風險更多是來描述一個用戶是否有還款能力,比如說通過月收入多少,負債情況怎么樣,就可以判斷用戶適合借多少額度。對于欺詐風險的判斷其實會困難一些,因為有很多中介會幫助客戶偽造資料,有些中介買一全套某個村里的身份證信息,辦手機號、銀行卡、注冊淘寶帳號養 6 個月之后,這一套資料就可以在各家網貸平臺上申請,造成假資料一人多貸的情況。所以對于國內的互聯網金融公司來說,其實很希望做到信息共享,因為有一人多貸情況的話,對于每一家平臺風險都是很高的。
業界通常解決欺詐風險的方法,就是利用人工審查,信用黑名單或者部署反欺詐規則的方法。這些方法其實效率比較低,人工成本會很高。因為現在欺詐手段更新非常快,比如說刷注冊的行為,詐騙者可能都不是去辦一張手機號,或者找身邊朋友拿手機號去注冊,黑產中有“貓池”,會插幾百張卡,這些卡都可以用來收驗證碼在網站上刷注冊,刷完注冊之后,黑產還可以刷電話的正常通信行為。黑產手段不斷更新,我們也只能不斷的更新技術、更新模型,找到數據中不容易偽造的點,識別出虛假、騙貸用戶。
二、在線反欺詐中的數據科學實踐
圖 4
對于反欺詐而言其實也是一種機器學習的過程。在業界 Y 目標變量的定義非常重要,也就是對樣本的選擇,在做監督學習的時候是必須要做的事情,就是標注哪些用戶是好用戶,哪些用戶是壞用戶。選定在一段時間窗口內的樣本后,就可以對這些樣本提取多維特征,利用監督學習的算法去做訓練,最后再在跨時間的驗證集上驗證模型的穩定性。
為什么在互聯網金融做反欺詐這么難?和普通互聯網中做機器學習有什么不一樣的地方?主要在于樣本的標注上。比如在做廣告點擊預測的時候,反饋是非常實時的,平臺可以實時標注這個用戶到底喜不喜歡展示的商品,但是在互聯網金融的借貸產品中用戶到底還不還錢可能要等好幾個月才能判斷。所以對于互聯網金融做機器學習的過程中,難度就在于壞用戶會非常少,也就造成了樣本極度不平衡現狀,這就需要提前做樣本的平衡處理。
如圖 4 中的風險控制數據金字塔,越上層的數據金融屬性越強,越下層的數據覆蓋到的用戶越廣。這些數據中金融屬性最強的是用戶的信用數據,比如人行的征信報告上面會有用戶過往的貸款記錄及違約記錄,還有信用卡的額度和使用情況,可以直接反應用戶的信用。再者就是消費記錄,如果說一個用戶的信用卡使用額度每個月都基本刷光,那這個用戶的還款能力需要進一步考量。還有通訊行為,比如用新手機號來申請貸款會比長期使用的號碼的風險高。社交行為方面,比如說用戶的常用聯系人是否真實、是否是中介或者在社交網絡上的一些數據。最后是行為數據,可以覆蓋到每一個來申請的用戶,例如在填寫個人信息時,如果輸入的時長過長有可能不是本人申請,有可能是中介代辦。
在做特征工程的時候,金融場景下做人工特征工程的比較多,而且特征需要有解釋性。比如這個用戶愛好賭博、經常半夜去娛樂場所,那么他的信用表現一般很差。還可以使用知識圖譜的特征挖掘技術,來挖掘更多的關聯性特征。基于“物以類聚,人以群分”的假設,如果你的朋友都是信用好的人,那么你大概率也是一個優質用戶。如果你的朋友都是借了錢不還的人,那么也會懷疑你是一個借錢不還的人。
圖 5
我們構建的知識圖譜,把用戶提供授權的消費數據、行為數據包括第三方的數據都整合在一個知識圖譜中,通過數據的處理后提取特征,做模型訓練和模型預測,最終反映在上層的反欺詐應用中。圖譜中的實體目前包括用戶的電話、身份證、信用卡、地理位置、設備號等等。設備號其實在圖譜的關聯關系中可以提供很多信息,比如有些用戶會發現他一個人關聯到上萬個設備,這種情況需要及時預警,另外要看某些設備是不是虛擬設備,或者地理位置是不是經過偽造的,通過這些蛛絲馬跡都可以幫助欺詐識別。
圖 6
整個風控決策從數據獲取到清洗,再到特征提取,再通過 GBDT、RF 等算法生成高級特征后,將同一個數據類別的特征輸出為一類風險評級,在建模時對各個數據源進行交叉建模,幫助提升預測能力。如圖 6 就是風控決策的模型搭建流程。
三、用戶全流程欺詐風險評分體系
1、為什么反欺詐需要體系化?
為什么反欺詐需要體系化呢?對于這個問題,其實很多欺詐機制在申請初期就可以發現,目前后端反欺詐決策不能滿足實時發現欺詐的需求,而且欺詐行為的技術含量日益升級,面對這些現狀需要我們不斷的提升對欺詐的響應能力。
接下來介紹一下在實踐的過程中做的一套用戶全流程欺詐風險的評估體系,傳統的做法是判斷欺詐的時刻是用戶在申請的時刻,資料已經提交完了。例如在銀行申請時把所有信用資料交給銀行之后,銀行會統一進行評審,也就是在資料齊全的時刻去判斷用戶的信用風險和欺詐風險。在移動端會有一個優勢,在用戶一來到平臺上就可以開始對用戶進行評估。如果可以在更早的情況下發現這個用戶是一個欺詐用戶的話,就會引導用戶走不同的流程。比如評估用戶大概率不是本人,平臺就讓用戶做人臉識別。或者平臺通過欺詐評分發現沒有欺詐的風險,就有可能直接放款,這樣對用戶的體驗會有很大的提升。
圖 7
如圖 7 比如用戶在激活設備的時候,平臺就可以給用戶一個評分,用戶在注冊帳號的時候有了更多的用戶信息,就可能給用戶一個更高的評分。再比如用戶在做其他的一些操作的時候,平臺發現用戶操作的速度過于頻繁了,就又會降低用戶的分數。所以說在不同的流程都可能給用戶打不同的評分,然后根據這些節點的不同評分,平臺可以引導用戶走不同的流程,最終根據用戶的信用評估給用戶相應的貸款額度。
2、用戶 SDK 數據全流程反欺詐
圖 8
為了提升用戶的使用體驗,引入了用戶的行為數據,并利用用戶的設備數據、行為數據和位置數據(如圖 8)來對用戶進行信用和欺詐評估。行為數據的數據質量的保障在業內一直是一個難題,我們也趟了很多坑,做了很多數據質量的修復,也對 SDK 做了很多定制化的改進,包括埋點的方式。不過這些工作都是有價值的,我們也確確實實的看到了行為數據對于反欺詐的業務價值所在,還在此基礎上申請了 2 項反欺詐技術專利。
3、反欺詐平臺工作流程
圖 9
圖 9 是目前反欺詐平臺的工作流程,平臺申請的數據,會存儲在 Neo4j 數據庫中,通過規則和反欺詐模型兩種策略對用戶申請進行評估,反欺詐模型不僅會給出用戶欺詐的概率,而且將此概率通過 FICO 分數校準到 300-900 分,并通過分析找出欺詐閾值對用戶進行實時提報預警。本平臺的亮點在于引入了反欺詐調查組,以機器學習加人工的方式,確認用戶是否是欺詐用戶,并將實時的標注信息反饋回模型的訓練中,不僅補充了壞樣本,而且使得模型迭代更迅速。
4、引入反欺詐調查員提升反饋效率
圖 10
引入反欺詐調查員在國外的金融行業也是常有的做法,例如 PayPal 公司,而引入人工調查后,對于模型的迭代會有巨大的好處。在欺詐標注方面,對于現金貸類的產品,通常需要 6 個月甚至 1 年的時間觀察用戶的還款情況來進行數據上的標注,現在有了人工調查機制后,如果預警了一批用戶,經過調查一天之內就可以得到新的標注,那么在當天晚上就可以重新進行一次模型訓練讓模型更準確。另外在過去的情況下,如果通過模型預測一個用戶是一個欺詐用戶的話,用戶是沒有反駁機會的,有可能直接被拒或者進入黑名單。但是引入反欺詐調查人工機制后,通過算法篩選和人工調查的結合,可以真實的確定某一個用戶是不是真的是一個中介或者是欺詐用戶。
再有另一個巨大用處就是結合人工標注再加上圖譜的挖掘,可以快速發現短時間內的欺詐團伙。類似于像圖 10 里展示的,我們找到一些用戶和兩個以上欺詐用戶聯絡過的一個網絡。有一些用戶打給了兩個欺詐用戶,但有些時候這個用戶經過調查并不是欺詐用戶。但像右上角這個結構比較緊密的網絡,其中有兩個用戶是我們認定的欺詐用戶,會發現這兩個用戶和其他兩個聯系人構成了一個緊密團體,通過這樣結構的發現,再往深挖就發現這是一個 13 人的小團伙,這個團伙里面有 11 人是申請了貸款的,其中 5 人是沒有通過貸款的流程,另外 6 人通過了之后,其中有 2 人曾有逾期行為,所以通過這種方式是可以找到這樣的欺詐團伙,或是中介團伙。如果在以前的話,可能挖到這兩個人標記了就完了,會忽略他關聯到的用戶,現在有了知識圖譜我們能挖到的信息就更深。
平臺現在正在做的事情就是用一手的行為數據再加上圖譜信息去搭建一個反欺詐的平臺,通過模型與人工調查的結合快速的實現欺詐的識別,可以使平臺不受任何的欺詐的損失。
能夠預見的是,FinTech 在未來金融業將逐步成為常態,可能會變成一種主流。FinTech 也在驅動生活往更便捷更美好的方向走去,這也正是技術創新最大的價值所在。
Q&A
現場提問:剛才發現欺詐團伙的例子里面,通話記錄是怎么獲得的?
王婷:這是用戶在我們的 App 中授權抓取獲得的,不用像以前一樣需要用戶去營業廳打印詳單給到銷售人員。
現場提問:用戶授權之后抓取的?
王婷:對,這也是行業的標準做法。
現場提問:我對您剛剛講到的設備號做用戶欺詐行為早期鑒定很感興趣,是不是用蘋果7在望京注冊走的流程和在村里走的流程不一樣?
王婷:按照假設地理位置在一定程度上可以看出來一些欺詐風險,比如一個風險很高的區域的申請會引起系統的預警。
現場提問:在識別用戶風險進行評分的時候是怎么樣的邏輯?
王婷:比如說在注冊的時候,會通過設備信息和地理位置信息打一個評分,這個評分也是通過歷史上模型的訓練,如果用戶的欺詐風險評分低于某一個閾值的話,會設置必須要經過的流程去驗證這個用戶有沒有虛假的行為,如果他通過的話,下一個 check point 會繼續判斷,引導用戶接下來的流程。
現場提問:其實我想問一下,你們會獲取哪些社交信息,這個社交信息你們有跟騰訊方面合作嗎?
王婷:其實我們會有跟第三方數據做一些合作,另外也會嘗試著抓取一些公網上的信息,通過這些信息,假設我們認定了的欺詐用戶是一個中介,通過關聯信息的數據,很有可能他聯系緊密的人也是中介。
現場提問:我現在在京東廣告部做數據的,我們遇到一個投訴就是有一個用戶說,我們給他推薦了他曾經看過的商品,他認為我們侵犯他隱私,這種行為應該很正常,我不知道你們獲取用戶的手機信息,因為我們安裝的時候會出現一大串權限,我們都不會仔細看的。其實有些用戶并不知道你們獲取他們很多信息,比如說系統版本手機型號,你們有沒有出現過相關的問題?
王婷:其實我們在做的時候,比如你說的提前獲取授權權限,或者有一些合同條款說明來保障用戶的知曉。其實大部分的誤解來自于不了解,現在推薦引擎比較成熟,相信大眾也在逐漸接受網站用自己的歷史數據去推測未來。
現場提問:我想了解一下,你們在欺詐標注那一塊,欺詐行為是基于以前歷史認定嗎?當欺詐發生了,你們才發現有問題,有沒有一些新的解決方法?
王婷:我覺得你問的問題挺有深度的,比如說從舊的方式方法來說,都是我們遭受到了損失之后,吸取了這個標注就把它轉化成數據訓練,但其實對公司來說是一個蠻大的損失之后才能夠吸取的教訓。我們現在做的工作,其實是希望快速發現新的欺詐手段,比如說用舊的方法,舊的訓練模型發現了認定欺詐用戶,用拓展的方式發現他周圍的用戶是什么樣的情況,通過這種方式我們就可以發現新的欺詐團伙或者欺詐手段,能夠避免損失,這是我們希望做到的欺詐團伙預警,這也是業界一直在攻克的問題。
《新程序員》:云原生和全面數字化實踐50位技術專家共同創作,文字、視頻、音頻交互閱讀總結
以上是生活随笔為你收集整理的如何构建 FinTech 科学反欺诈体系|架构师实践日的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 专访平安科技首席科学家肖京:平安智能化的
- 下一篇: Airbnb欺诈预测机器学习模型设计:准