金融风控实战——风控数据挖掘方法
生活随笔
收集整理的這篇文章主要介紹了
金融风控实战——风控数据挖掘方法
小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.
星座屬性單變量分析
import pandas as pd import numpy as np ft_zodiac = pd.read_csv('ft_zodiac.txt') print(ft_zodiac.shape) ft_zodiac.head()結(jié)果:?
zodiac_label = pd.read_csv('zodiac_label.txt') #這里去除標(biāo)簽為2的數(shù)據(jù) ft_label = zodiac_label[zodiac_label.label != 2] ft_label.head()結(jié)果:
?
pd15作為好壞的分割節(jié)點(diǎn)。>15為壞人,<15為好人?
15天以上的人為壞,5天以內(nèi)的人為好人,中間的人不用管了
data = pd.merge(ft_label,ft_zodiac,on = 'order_id',how = 'inner') data.head()結(jié)果:
計(jì)算一下每個(gè)星座的bad rate?
#用集合將出現(xiàn)的值存起來(lái) zodiac_list = set(data.zodiac) chinese_zodiac_list = set(data.chinese_zodiac) #創(chuàng)建字典,來(lái)表示星座及對(duì)應(yīng)的壞賬率 zodiac_badrate = {} for i in zodiac_list:total = data[data.zodiac == i]bad = total[total.label == 1]['label'].count()good = total[total.label == 0]['label'].count()zodiac_badrate[i] = round(bad/(bad + good),3) zodiac_badrate結(jié)果:
?
結(jié)果:
決策樹算法?
決策樹的生成只考慮局部最優(yōu),
決策樹的剪枝則考慮全局最優(yōu)。
?
?
?
信息增益的缺點(diǎn)——當(dāng)特征的取值較多時(shí),根據(jù)此特征劃分更容易得到純度更高的子集,因此劃分之后的熵更低,由于劃分前的熵是一定的,因此信息增益更大,因此信息增益比較偏向取值較多的特征。
?
總結(jié)
以上是生活随笔為你收集整理的金融风控实战——风控数据挖掘方法的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 李宏毅深度学习——第一天
- 下一篇: 李宏毅深度学习——第一天(Bias an