解析金融反欺诈技术的应用与实践
統(tǒng)計(jì)學(xué)分為兩大部分,描述性統(tǒng)計(jì)學(xué)和推斷性統(tǒng)計(jì)學(xué)。而描述性統(tǒng)計(jì)學(xué)在建模的時(shí)候往往是很重要而又容易被人忽略的一步, 而它的作用往往如下:
1.發(fā)現(xiàn)數(shù)據(jù)中的異常
2.通過(guò)分布圖發(fā)現(xiàn)離群值點(diǎn)
3.檢查數(shù)據(jù)缺失情況
4.檢查標(biāo)簽占比情況,如壞樣本太少的話,需要抽樣調(diào)整好壞樣本比例
所需模塊python模塊
matplotlib
pandas
seaborn
numpy
SciPy
例子
首先用numpy來(lái)創(chuàng)造一組隨機(jī)數(shù),我這邊創(chuàng)造一組正態(tài)分布的隨機(jī)數(shù),總共50個(gè)用于實(shí)驗(yàn)。
from numpy.random import normal, randint
datatest= normal(0, 50, size=50)
一般描述性統(tǒng)計(jì)的統(tǒng)計(jì)量有均值,眾數(shù),中位數(shù),極差,標(biāo)準(zhǔn)差,方差
這三種重要的統(tǒng)計(jì)量,可以分別用numpy包,SciPy包,pandas包計(jì)算
Numpy包計(jì)算方法
from numpy import mean, median
import numpy as np
np.mean(datatest)---計(jì)算均值
np.median(datatest)—計(jì)算中位數(shù)
np.std(datatest)—計(jì)算標(biāo)準(zhǔn)差
np.var(datatest)—計(jì)算方差
scipy包計(jì)算方法
from scipy.stats import mode
mode(datatest)
pandas包計(jì)算方法
用pandas計(jì)算統(tǒng)計(jì)量,需要先把數(shù)據(jù)轉(zhuǎn)換重pandas的數(shù)據(jù)框格式
先加列名’number’,轉(zhuǎn)為字典
datatestn={'number':datatest}
再轉(zhuǎn)為dataframe格式
datatestn =pd.DataFrame(datatestn)
就可以直接用
datatestn.mean()
datatestn.median()
datatestn.mode()
或者一步到位
datatestn.describe()
?
如上,產(chǎn)出數(shù)量,均值,標(biāo)準(zhǔn)差,最大最小值,以及各分位點(diǎn)。
datatestn.skew()
datatestn.kurt()
針對(duì)我們自己要分析的數(shù)據(jù),可以在sas上面處理完,用python讀取,例如:
datatestnnn=pd.read_sas(‘D:\dataplay.sas7bdat’)
datatestnnn['salary'].shape—取收入變量,再看行數(shù)和列數(shù)
然后用剛才提到的一系列方法分析,當(dāng)用datatestnnn.skew()計(jì)算出來(lái)的偏度越大且為正數(shù),說(shuō)明數(shù)據(jù)的分布重尾在右邊,右邊的極端值較多,可能有較多的異常值。
?
可視化
可視化可以用matplotlib包和seaborn包,就可以從圖片觀察數(shù)據(jù)的分布,有直觀的感覺(jué)。
import matplotlib.pyplot as plt
plt.hist(datatest,bins=50,color='b')
plt.xlabel('number')
plt.ylabel(Frequency’)
?
import seaborn as sns
sns.distplot(datatest)
?
要做箱線圖的話可以執(zhí)行以下代碼
from pylab import *
?
總結(jié)
以上是生活随笔為你收集整理的解析金融反欺诈技术的应用与实践的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【采用】无监督学习在反欺诈中的应用
- 下一篇: 移动金融业务风控框架及设备风险识别的意义