【未来可能用到】关于模型的100个问答-part2
關于模型的100個問答-part2
一
距離過年還有8天,沒錯的,我跟你一樣還沒有休假。深圳這段時間是冷到刺骨了,就是冷到我今天才來更新,不要煩我每次都要說這段話,畢竟是生活中無處表達,只能在這抒發了。
上周的part1,感謝留言區的大神的回答,也補充了我知識的缺陷,謝謝!
今天能寫多少的問題就寫多少個問題哈,有些我是想到就寫上去了,也希望在這篇文章也能有大神出沒,這個系列就是把一些零碎的知識匯總一下。
1
1、我生成的評分,用哪個woe啊。
woe,一般情況下有三個數據集的woe,這個套路跟參數估計一個道理。
1、用訓練集的woe,因為訓練集的數據范圍廣,覆蓋面廣
2、用訓練集+測試集的數據疊加在一起,算一個woe,數據比之前的更廣。
3、用驗證數據集的woe,接近現在的時間,可以代表當下的客戶形態。但是驗證的數據一般就是1 2個月的數據,所以覆蓋面就不知道那么廣。
我比較常用的是第二種方式。你這時候可能問,那參數估計要不要配套,我建議是配套,但是我只是建議~~
2
2、我做的模型,ks很高啊,為什么我A層的客戶比B層客戶逾期率還高?
這種情況經常發生,訓練集中分層明明是完美分層,A-E逾期率依次遞減,批核率依次遞減,這時候你的驗證集要是小的波動,要是a層比b層還高出5%的話,這就明顯是世界對你狠狠的恨意了,處理建議:
1、把你這a層,要是全面一些就ab兩層的壞客戶都全拿出來,按照每個變量的得分,看下是那些變量讓你的壞客戶的跑到A層的,把這個變量替換成別的變量,重新擬合。
2、如果你的驗證的ab層區分度不夠,但是還是優于c層較多的,可以分層四層,把ab兩層放在一起。對外就說,這個模型分成四層比較合適,誰規定一定要分5層的。
3、檢查是不是你把白戶放進去建模了,其實很多公司對白戶這類客戶都有點束手束腳,假設你把白戶(征信空白)放進去,且這種查詢次數為0且負債為0(征信報告)的得分較高的話,可能會出現一些逾期白戶進入ab層。
3
3、為什么你一直說的都是邏輯回歸?
在建模工作中,我會根據這個模型需不需要業務的解釋,例如a卡,需要跟產品,審批匯報這種模型,業務重于模型效果嘛,你用了人家業務不認同的變量,還是會叫你改的嘛,所以會使用邏輯回歸,還有另一方面,像a卡,本身就是衡量客戶的一個償債能力,大部分的變量呈現都是線性可分的,所以邏輯回歸也相對有優勢。
那么像反欺詐這種模型,不要跟業務反饋里面用到什么變量,因為反欺詐中的邏輯大部分就是交叉出邏輯上的錯誤,或者區別與普通客戶的特征,你不要跟我說什么中介包裝就跟真的一樣,要是高端的中介包裝,你們審核的人工都看不來,還想指望這用了幾個變量的模型,不扯這個。那么這時候你的變量往往都是交叉驗證性或者多個組合的,一句話,反欺詐沒啥邏輯,都來欺詐,還把征信查詢次數弄成最近三個月30次來申請不成,所以大部分的反欺詐模型的變量我自己都解釋不了,那么這時候你用機器學習的方法就可以讓模型更加難解釋,有效果且穩定可用就成你這個模型的重點了。
4
4、客戶信用分數分層的時候,怎么知道這層大概分多少?
針對有人工參與的模型,分數分層,以下我的建議建議建議(我只是建議,我的個人工作經驗,每家公司標準不一樣)如下:
A層:逾期率大概是總體逾期率的30%以下這樣子,假設你的總體逾期率是10%,那么你的A層的逾期率大概就是1%-3%這樣子,這層的客戶人數占比大概是總體的4%-8%左右。
B層:逾期率大概是總體的一半左右,客戶人數占比大概是總體客戶數的10-15%。
C層:逾期率跟總體差不多,客戶人數占比大概是總體客戶數的30%-50%,一般我是AB兩層以及DE兩層進不了就到這里來了。
D層:逾期率大概是總體的1.2-1.4倍,客戶人數占比大概是總體客戶數的10-15%。
E層:逾期率大概是總體的1.5倍以上,具體看你們公司的容忍度,客戶人數占比大概是總體客戶數的4%-8%。
以上是我的建議!!!,建議!!!,知道我為什么一直強調是建議嗎,知道吧,總有喜歡挑事的。
5
5、是不是進入邏輯回歸的模型的woe都需要單調。
希望單調的原因是因為,邏輯回歸對于線性可分的數據,效果會很明顯,但是并不是你的變量進入模型都要單調,數據分析,首先最重要的是尊重數據的原始性,變量分組并不是為了等下的woe單調,而是利用分組把該變量的特征可以最大化。
舉個例子,有個變量的5個組是0.07, 0.14,0.09,0.25,0.36,我是不建議你把為了有個單調的趨勢,把0.14和0.09這兩個組合并在一起的,假設你這個變量是你可以很大的自信認為,他就是越大客戶質量越不好,那你合并我也不會勸你,但是再你拿不定這個變量是不是這種情況的時候,不要合并,檢查一下是不是客戶的通過率造成這種問題。
所以,最好的每個變量的woe單調最好,但是如果不單調,業務解釋上過得去的呈現u字型的也是可以的。
6
6、 為什么我的隨機森林過擬合?
隨機森林回過擬合是常有的事,只是說能不能讓他不要太過了,建議如下:
1、不要種那么多棵樹。
2、取數的時候,范圍盡量廣一些,我是覺得取建模數據時候,不要就取近一個月的數據,特別像我們這種大額貸款的,每年中旬的會比其他時候單量要多一些,數據的時間跨度建議是在半年到一年,兩年就太多了。
3、可以分組之后再進入模型
4、還有其他我想不到的,期待大神來留言區解答。
總結
以上是生活随笔為你收集整理的【未来可能用到】关于模型的100个问答-part2的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 客户流失预警模型-GBDT模型
- 下一篇: 【未来可能用到】关于模型的100个问答-