数据的预处理与特征构建(申请评分卡模型)
數據的預處理工作可以有效處理缺失值與異常值,從而增強模型的穩定性;
而特征構建工作則可以將信息從字段中加以提煉,形成有業務含義的優異特征
評分卡使用策略:
1.進件量較大,規則無法滿足更細的切分需要;
2.有許多無法判斷風險類別的灰色客群
使用場景:人工分流、客群豁免
申請評分卡:用在貸前審核環節,評估放貸后是否會違約的模型。常用特征:個人信息、央行征信信息、申請行為信息、其他輔助信息。
特征構造:將分散在不同字段中的信息加以組合,從中提煉出有價值的、可用的信息進而進行評分卡模型的開發。
部分常用的特征構造的方法有:求和、比例、頻率、平均
求和:例如過去一段時間內的每月網購金額的總和
比例:例如申請貸款的月還款本息不月收入的占比
頻率:例如過去一段時間內的境外消費次數
平均:例如過去一段時間內平均每次信用卡取現額度
好的特征的優勢:
數據的質量檢驗:
1.數據的集中度
2.數據缺失:
1)舍棄該字段戒該條記彔:缺失占比太高
2)補缺:缺失占比不高,可用均值法、眾數法、回歸法等
3)作為特殊值:將缺失看成一種特殊值
3.異常值:
不缺失值類似,異常值在一般的數據分析場景中也會對模型產生一定的干擾,需要對其做處理。異常
值的判斷通常有聚類法、分位點法等等,處理方法有刪除法、替換法。
𝑥 > 𝑄3 + 3 (𝑄3 ? 𝑄1) 𝑜𝑟 𝑥 < 𝑄1 ? 3 (𝑄3 ? 𝑄1)
𝑄3,𝑄1分別是樣本的75%與25%分位點
4.數據含義的一致性
四分位數
總結
以上是生活随笔為你收集整理的数据的预处理与特征构建(申请评分卡模型)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: pandas中关于DataFrame计算
- 下一篇: 风险监控报表(Word)