风控特征:时间滑窗统计特征体系
風(fēng)控業(yè)務(wù)背景
俗話說,?路遙知馬力,日久見人心。在風(fēng)控中也是如此,我們常從時間維度提取借款人在不同時間點的特征,以此來判斷借款人的風(fēng)險。在實踐中,這類特征通常會占到80%以上。由于是通過時間切片和聚合統(tǒng)計函數(shù)來構(gòu)造,因此一般被稱為時間滑窗統(tǒng)計特征。
本文的主要意義在于:
-
對于需要入門風(fēng)控建模的同學(xué)而言,希望能幫助你快速上手特征工程。
-
對已經(jīng)有特征工程經(jīng)驗的同學(xué)而言,希望能帶給你一些風(fēng)控業(yè)務(wù)理解。
目錄
Part 1. 觀察期、觀察點及表現(xiàn)期
Part 2. RFM模型介紹
Part 3. 時間滑窗?數(shù)量?統(tǒng)計類特征
Part 4. 時間滑窗?占比?統(tǒng)計類特征
Part 5. 時間滑窗?趨勢?統(tǒng)計類特征
Part 6. 時間滑窗?穩(wěn)定性?衍生特征
Part 7. 第三方多頭借貸變量衍生
Part 8. 總結(jié)
參考資料
Part 1. 觀察期、觀察點及表現(xiàn)期
理解這三者的概念是風(fēng)控建模前期樣本準(zhǔn)備的基礎(chǔ),在此簡單介紹。
-
觀察點(?Observation Point?)?:并非是一個具體的時間點,而是一個時間區(qū)間,表示的是客戶申請貸款的時間。在該時間段申請的客戶?可能?會是我們用來建模的樣本 。(提示:為什么用“可能”這個描述,因為還需剔除一些強規(guī)則命中的異常樣本,這部分樣本將不會加入建模)
-
觀察期?(Observation Window):用以?構(gòu)造特征X?的時間窗口。相對于觀察點而言,是?歷史?時間。觀察期的選擇依賴于用戶數(shù)據(jù)的厚薄程度。通常數(shù)據(jù)越厚,可提取的信息也就越全面、可靠。
-
表現(xiàn)期?(Performance Window):定義?好壞標(biāo)簽Y?的時間窗口。相對于觀察點而言,是?未來?時間。由于風(fēng)險需要有一定時間窗才能表現(xiàn)出來,因此信貸風(fēng)險具有?滯后性?。表現(xiàn)期的長短可以通過Vintage分析和滾動率分析來確定,在此不做展開。
圖 1 - 觀察期、觀察點及表現(xiàn)期
表現(xiàn)期越長,信用風(fēng)險暴露將越徹底,但意味著觀察期離當(dāng)前將越遠(yuǎn),用以提取樣本特征的歷史數(shù)據(jù)將越陳舊,建模樣本和未來樣本的差異也越大。反之,表現(xiàn)期越短,風(fēng)險還未暴露完全,但好處是能用到更近的樣本。
Part 2. RFM模型介紹
RFM模型最早是用來衡量客戶價值和客戶創(chuàng)利能力。理解RFM框架的思想是構(gòu)造統(tǒng)計類特征的基礎(chǔ),其含義為:
-
R(Recency)?:客戶最近一次交易消費時間的間隔。R值越大,表示客戶交易發(fā)生的日期越久,反之則表示客戶交易發(fā)生的日期越近。
-
F(Frequency)?:客戶在最近一段時間內(nèi)交易消費的次數(shù)。F值越大,表示客戶交易越頻繁,反之則表示客戶交易不夠活躍。
-
M(Monetary)?:客戶在最近一段時間內(nèi)交易消費的金額。M值越大,表示客戶價值越高,反之則表示客戶價值越低。
Part 3. 時間滑窗數(shù)量統(tǒng)計類特征
對于不同數(shù)據(jù)源,我們可以統(tǒng)計得到不同內(nèi)容的RFM特征。例如:
-
運營商數(shù)據(jù):用戶每天的通話記錄次數(shù)、時長等。
-
信用卡賬單或電商交易數(shù)據(jù):用戶每天的交易筆數(shù)、金額等。
-
埋點行為數(shù)據(jù):用戶每天在某頁面的瀏覽量、點擊量等。
-
設(shè)備數(shù)據(jù):用戶每天的登陸、活躍次數(shù)。
為了擴展更多的維度,我們常會維護一個分類名單庫(或?分類指標(biāo)體系?),可參考《 ?信貸風(fēng)控中的名單庫挖掘、使用和維護 》(https://zhuanlan.zhihu.com/p/77238851)。接下來,我們就可以繼續(xù)?細(xì)分類目?來統(tǒng)計。例如:
-
信用卡交易數(shù)據(jù):用戶每天在母嬰用品、交通出行、餐飲、美容美發(fā)等交易筆數(shù)、金額。
-
設(shè)備App數(shù)據(jù):用戶手機上安裝的借貸類、生活類、運動類、音樂類等App的數(shù)量。
以設(shè)備App數(shù)據(jù)為例,我們將統(tǒng)計得到如下數(shù)據(jù):
圖 2 - 截止下單日,用戶每天統(tǒng)計的App數(shù)量
需要指出的是,我們?需要結(jié)合業(yè)務(wù)去分析數(shù)據(jù),數(shù)據(jù)因為業(yè)務(wù)才具有溫度?。
🌟?敲黑板劃重點1——了解數(shù)據(jù)采集邏輯
特征是從原始數(shù)據(jù)中提取的信息,如果數(shù)據(jù)源采集上就存在問題,那么所構(gòu)造的特征也必然有問題。
對于一些采集客觀、可靠的數(shù)據(jù)源而言,分析過程就相對簡單。例如,如果用戶某天沒有打電話,那么這天的通話次數(shù)為0,這是因為運營商客觀保留了用戶的原始數(shù)據(jù)。這時候,0的含義就是用戶在當(dāng)天未有通話行為?。當(dāng)然,對于用戶借用他人手機打電話這種情況,則不在考慮范圍內(nèi)。
對于依賴于用戶登陸、活躍行為才能采集到的數(shù)據(jù),就更需要結(jié)合采集方式來分析。例如,在設(shè)備App數(shù)據(jù)中,如果某天統(tǒng)計得到用戶安裝的借貸類App為0。這個數(shù)字后面可能有哪些原因呢?可能的猜想有:
-
1.?統(tǒng)計函數(shù)原理?:用戶這一天并沒有使用手機,導(dǎo)致數(shù)據(jù)采集上缺失。但SQL中count()函數(shù)在統(tǒng)計時會count(null) = 0,也就是說會將缺失值填充默認(rèn)值為0。
-
2.?用戶使用行為?:用戶使用了?新安卓手機?,數(shù)據(jù)采集正常,但確實沒安裝借貸類App,因此用戶維度統(tǒng)計值為0。或者,用戶使用了?老安卓手機?,但主動卸載了所有借貸類App。
-
3.?數(shù)據(jù)采集技術(shù)?:用戶使用了?蘋果手機,?由于無法采集到App數(shù)據(jù),哪怕手機上實際安裝了借貸App,但統(tǒng)計值也為0。
-
4.?變量構(gòu)造邏輯?:雖然手機上安裝了借貸類App,但并不在你的借貸App名單庫中,因此匹配數(shù)為0。
那么到底是哪種原因呢?對于這些猜想,我們可以從以下維度加以佐證:
-
用戶當(dāng)天是否活躍?
-
用戶使用設(shè)備是否出現(xiàn)新的UMID(設(shè)備ID)?
-
用戶使用設(shè)備的平臺(iOS / Android)?
-
名單庫是否很久沒有維護?
這也就是需要?結(jié)合業(yè)務(wù)經(jīng)驗對多個特征交叉衍生新特征?的原因,這種特征具有強業(yè)務(wù)含義,因此往往能發(fā)揮出更好的效果。
🌟?敲黑板劃重點2——定義觀察期有效性
我們還需?考慮觀察期的有效性,以及不同用戶的數(shù)據(jù)厚薄程度?。
比如,如果一個用戶手機號網(wǎng)齡才6個月,那么在統(tǒng)計最近6個月、12個月、24個月的通話記錄次數(shù)時,可想而知這幾個變量的數(shù)值都是一樣的。
同理,對于手機號網(wǎng)齡分別是6個月的新用戶和6年的老用戶而言,“最近12個月的通話記錄次數(shù)”這種特征是?不公平(unfair)?的。兩者的數(shù)據(jù)厚薄程度?不同,新用戶的觀察期實際上只有6個月,而老用戶的觀察期是12個月。
為了區(qū)分這種情況,有以下建議:
1.?定義觀察期有效性,?在時間滑窗統(tǒng)計時,更需要有意識地留出有效的觀察期。
2.?定義分群變量?。比如將數(shù)據(jù)有效期只有6個月和12個月的用戶分成2個群體。
Part 4. 時間滑窗占比統(tǒng)計類特征
在得到數(shù)量統(tǒng)計類特征后,我們繼續(xù)衍生?占比(ratio)?類特征,一方面可用來?去除量綱影響?,另一方面?衡量用戶的行為偏好。例如:
最近N個月內(nèi)?母嬰類?消費次數(shù)?占比?= 最近N個月內(nèi)?母嬰類?消費?次數(shù)?/ 最近N個月內(nèi)消費次數(shù)
如果用戶在某類消費次數(shù)或者金額占比上有明顯的傾向,我們就更能掌握用戶的消費行為偏好和其他屬性。比如,如果用戶的母嬰類消費支出占比較大,說明用戶是有娃一族,風(fēng)險也就相對更低。
Part 5. 時間滑窗趨勢統(tǒng)計類特征
由于一個人的行為是會動態(tài)變化的,衡量這種變化趨勢對于風(fēng)險識別也很重要。例如,對于借款人的多頭借貸風(fēng)險,如果多頭指標(biāo)呈現(xiàn)逐步上升的趨勢,我們就覺得多頭負(fù)債風(fēng)險在上升。借款人往往會采取“拆東墻補西墻”的措施,如果哪一天連東墻都找不到拆,這個擊鼓傳花的游戲也就game over。
我們一般計算?斜率(slope)?來衡量這種變化趨勢。例如:
多頭借貸趨勢 =(當(dāng)月的多頭借貸次數(shù) - 上個月的多頭借貸次數(shù))/ 上個月的多頭借貸次數(shù)
Part 6. 時間滑窗穩(wěn)定性衍生特征
在不同時間點統(tǒng)計的數(shù)量特征基礎(chǔ)上,我們可以繼續(xù)衡量用戶行為的穩(wěn)定性。
在數(shù)學(xué)上,我們通常可以用?變異系數(shù)(?Coefficient of Variation,CV?)來衡量這種數(shù)據(jù)波動水平。變異系數(shù)越小,代表波動越小,穩(wěn)定性越好。
變異系數(shù)的計算公式為:變異系數(shù) C·V =( 標(biāo)準(zhǔn)偏差 SD / 平均值Mean )× 100%
例如,對于借貸次數(shù),我們可以計算CV來衡量借貸行為的穩(wěn)定性。
另外需要注意的是,對于持續(xù)多頭借貸的老哥,其實風(fēng)險并不會很高,因為有持續(xù)穩(wěn)定的借貸渠道。但對于集中性爆發(fā)的多頭借貸行為,我們就更需要加以關(guān)注。這背后的動機,可能是手頭突然緊張(比如網(wǎng)賭輸錢),可能是破罐子破摔,可能是前期潛伏突然爆發(fā),可能是行業(yè)大環(huán)境影響。
Part 7. 第三方多頭借貸變量衍生
據(jù)筆者所知,目前市場上所提供的第三方多頭借貸數(shù)據(jù)通常包含以下變量:
借款人最近7天、1個月、3個月、6個月、12個月、18個月、24個月的某類平臺借貸次數(shù)
某類平臺包含:消費金融公司、互聯(lián)網(wǎng)金融公司、銀行信貸、數(shù)據(jù)風(fēng)控公司等等。
根據(jù)這些原始變量,我們可以按照以上方法論衍生一些新變量。例如:
如果以“?最近7天的多頭借貸次數(shù) / 最近1個月的多頭借貸次數(shù)”,我們便可以判斷借款人的時間維度上的借貸行為分布。這個變量數(shù)值越大,代表近期借貸集中,短期風(fēng)險更大。
如果以“?最近1個月的銀行信貸借貸次數(shù) / 最近1個月的多頭借貸次數(shù)”,我們便可以判斷借款人的在借貸平臺維度的分布。這個變量數(shù)值越大,可以認(rèn)為越趨于正面。
在使用這些變量時,我們還需考慮第三方數(shù)據(jù)公司所接入的機構(gòu)數(shù)的變化。也就是說,如果接入機構(gòu)數(shù)在持續(xù)增長,那么整體人群的多頭借貸指數(shù)也可能往高分偏移。
Part 8. 總結(jié)
本文系統(tǒng)總結(jié)了時間滑窗統(tǒng)計特征的構(gòu)造方法論,以及相應(yīng)的業(yè)務(wù)理解。總的來說,我們先統(tǒng)計數(shù)量,再從占比、趨勢、穩(wěn)定性、集中性等維度去衍生。當(dāng)然,最重要的一點還是多結(jié)合業(yè)務(wù)去思考。
?
參考資料
felix:JDATA京東算法大賽入門(score0.07+時間滑動窗口特征+xgboost模型)(https://zhuanlan.zhihu.com/p/26177617)
高階用戶運營 | 如何用RFM模型實現(xiàn)用戶分層管理(附案例)|推薦收藏(https://www.douban.com/note/698611890/)
「回顧」自動化特征工程和自動建模在風(fēng)控場景的應(yīng)用(https://mp.weixin.qq.com/s/SiD8HZ2eFuuNE3CTYaPYSA)
總結(jié)
以上是生活随笔為你收集整理的风控特征:时间滑窗统计特征体系的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 复方蟾酥膏_功效作用注意事项用药禁忌用法
- 下一篇: 风控特:关系网络特征工程入门实践