【模型迭代】模型迭代
研習社話題N:
問題:信用模型的因變量如何修復?或者說如何更好的確定Y變量?
解釋:已經定義了Y,但是模型效果一般,或者說在逐漸變差,所以在想辦法重新定義。
原因:模型上線后,效果一般,效果一般的表現是什么?問題出在哪里?除了Y的定義,還有哪些可能存在的原因?
探究:模型效果的評估指標及調優方法?業務中的Y的定義方法。
下面,我們開始今天的分析:
先看幾個概念:
??1、score_cutoff及pass_rate%
??2、cutoff以上各分段區間的sample_amount,pre_bad_rate%和real_bad_rate%以及model_error
舉個例子:
??可以看到,假如我們我們的cutoff閾值設置為500分,模型各分段預測違約概率隨分值的增加而降低,實際業務中模型表現情況也基本符合這個規律。但是,模型的實際效果,要比預測效果差不少,model_error基本在5%以上,說明:我們模型的整體預估能力出了問題,而不單單是某個分段?;诖?#xff0c;我們可以從如下幾個角度出發,分析造成違約升高的因素,從而找出對應的調優方法。
角度1:
外部因素變化
??1)經濟環境變差 2)政策導向變化 3)放貸環境受影響 4)銀行或機構本身產品結構調整 5)進件渠道發生變化
??6)其他因素
分析方法:
??1)經驗,外部環境、管理部門、運營部門、貸后部門、催收部門,反饋
??2)量化,表現為用戶整體評分并無下降,各區間分布也較為合理,Pass_rate%正常,但貸后表現異常。
角度2:
樣本特征X分布發生變化
??具體表現為,樣本個別或多個特征整體分布發生變化,原因可能為進件用戶結構隨外部環境等因素影響而發生變化。結果為進件評分整體評分升高或降低,或者區間評分升高或降低。若整體評分降低,通常風控經理會降低cutoff,為滿足通過率的要求,這就導致本來部分低分用戶,也得到了審批。若整體評分升高,通常風控經理會降低cutoff,導致部分好用戶會被等同降級處理。
??最終的結果都表現為,逾期率的提升。
分析方法:
??1)PSI觀察Y值是否穩定
??2)PSI觀察各樣本特征X的分布變換是否穩定,另外檢測其正態性和相關性是否發生漂移。
角度3:
label特征Y定義出現問題
??通常,銀行業務中,定義壞樣本選M3,也就是逾期超過90天;機構分期業務,通常選取FPD30或者PDM(最大逾期天數);單期小額現金貸業務,通常選擇PD10~PD30;極個別業務,會選擇PD3甚至PD1。我們訓練模型前,具體label特征Y定義方法的選擇,需要結合業務經驗和賬齡分析、貸后催回表現等因素的綜合評定。
??我們可以看到,Y的選擇不同,正負樣本占比即不同,樣本區間分布便不同。因此,如果Y的定義不合理,會影響到評分卡的效果。如果數據在訓練集、測試集、驗證集的表現都不錯,但是實際投產后出現問題,出去經濟政策環境和業務環境發生變化的原因外,很有可能是Y選取不合適導致樣本質量發生偏移的結果。
??綜上,我們就可以理解:一般機構業務定義Y,通常選PD10~PD30左右,時間不短,也不會太長。時間太短,模型中會將非常多正常樣本的信息誤認為壞樣本信息而去學習;時間太長,許多壞樣本的信息學習就不完整,另外模型調優的周期也會被動拉長。
??因此,我們也可以理解,為什么銀行一般不用或少用較為復雜的評分卡模型,殺雞用牛刀的方式,少用。
??現在回到文章開始時的幾個問題:
??總結如下:當模型效果表現一般時,我們通常需要從多個角度出發考慮問題,采用經驗加分析的方法。將影響Pass_rate%和bad_rate%的因素排查定位到①環境、②X、③Y,進而進一步排查分析具體原因。
??由此,我們也可以得出教訓,在模型開發過程中,需要不斷去通過PSI、Pass_rate%、bad_rate%、混淆矩陣等方法去分析樣本特征的預測性、穩定性,以及Y定義的合理性。這樣,會盡可能的避免模型上線即失效的尷尬局面。
??對數據分析、機器學習、數據科學、金融風控等感興趣的小伙伴,需要數據集、代碼、行業報告等各類學習資料,可添加微信:wu805686220(記得要備注喔!),也可關注微信公眾號:風控圏子(別打錯字,是圏子,不是圈子,算了直接復制吧!)
關注公眾號后,可聯系圈子助手加入如下社群:
- 機器學習風控討論群(微信群)
- 反欺詐討論群(微信群)
- python學習交流群(微信群)
- 研習社資料(qq群:102755159)(干貨、資料、項目、代碼、報告、課件)
相互學習,共同成長。
總結
以上是生活随笔為你收集整理的【模型迭代】模型迭代的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【文本挖掘】反欺诈模糊匹配
- 下一篇: 【风控策略】(未完成)策略规则与模型评分