【机器学习PAI实践四】如何实现金融风控
(本文數據為虛構,僅供實驗)
一、背景
本文將針對阿里云平臺上圖算法模塊來進行實驗。圖算法一般被用來解決關系網狀的業務場景。與常規的結構化數據不同,圖算法需要把數據整理成首尾相連的關系圖譜。圖算法更多的是考慮邊和點的概念。阿里云機器學習平臺上提供了豐富的圖算法組件,包括K-Core、最大聯通子圖、標簽傳播聚類等。
本文的業務場景如下:
下圖是已知的一份人物通聯關系圖,每兩個人之間的連線表示兩人有一定關系,可以是同事關系或者親人關系等。已知“Enoch”是信用用戶,”Evan”是欺詐用戶,計算出其它人的信用指數。通過圖算法,可以算出圖中每個人是欺詐用戶的概率,這個數據可以方便相關機構做風控。
二、數據集介紹
數據源:本文數據為自己生成,用于實驗。
具體字段如下:
| start_point | 邊的起始節點 | string | 人 |
| end_point | 邊結束節點 | string | 人 |
| count | 關系緊密度 | double | 數值越大,兩人的關系越緊密 |
數據截圖:
三、數據探索流程
首先,實驗流程圖:
1.最大聯通子圖
最大聯通子圖的功能很好理解,前面已經介紹了,圖算法的輸入數據是關系圖譜結構的。最大聯通子圖可以找到有通聯關系的最大集合,在團伙發現的場景中可以排除掉一些與風控場景無關的人。本次實驗通過“最大聯通子圖”組件將數據中的群體分為兩部分,并賦予group_id。通過“SQL腳本”組件和“JOIN”組件去除下圖中的無關聯人員。
2.單源最短路徑
通過“單源最短路徑”組件探查出每個人的一度人脈、二度人脈關系等。distance講的是“Enoch”通過幾個人可以聯絡到目標人。
如下圖:
3.標簽傳播分類
“標簽傳播分類”算法為半監督的分類算法,原理是用已標記節點的標簽信息去預測未標記節點的標簽信息。在算法執行過程中,每個節點的標簽按相似度傳播給相鄰節點。
調用“標簽傳播分類”組件除了要有所有人員的通聯圖數據以外,還要有人員打標數據。這里通過“已知數據-讀odps”組件導入打標數據(weight表示目標是欺詐用戶的概率):
通過SQL對結果進行篩選,最終結果展現的是每個人涉嫌欺詐的概率,數值越大表示是欺詐用戶的概率越大。
四、其它
參與討論:云棲社區公眾號
免費體驗:阿里云數加機器學習平臺
總結
以上是生活随笔為你收集整理的【机器学习PAI实践四】如何实现金融风控的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【机器学习PAI实践三】雾霾成因分析
- 下一篇: 【机器学习PAI实践五】机器学习眼中的《