【科技金融】专家评分卡和机器学习评分卡的差异化和必要性
??對數據分析、機器學習、數據科學、金融風控等感興趣的小伙伴,需要數據集、代碼、行業報告等各類學習資料,可添加微信:wu805686220(記得要備注喔!),也可關注微信公眾號:風控圏子(別打錯字,是圏子,不是圈子,算了直接復制吧!)
關注公眾號后,可聯系圈子助手加入如下社群:
- 機器學習風控討論群(微信群)
- 反欺詐討論群(微信群)
- python學習交流群(微信群)
- 研習社資料(qq群:102755159)(干貨、資料、項目、代碼、報告、課件)
相互學習,共同成長。
我們面臨的問題
??最近發現,有不少做風控的小伙伴,腦子里有互金機器學習、數據分析的概念,但缺少整體做風控架構、系統、策略的思維,具體可以表現為對機器學習評分卡了如指掌,對專家評分模型卻知之甚少。分析原因,大概是自己暫時沒有坐到風控經理、總監的崗位上,沒有掌握先從整體出發,再解決局部問題的思維能力。
??雖然現如今的科技金融講求全自動、量化、大數據、無人工等概念要求,但我還是覺得,不同業態下的不同產品,面對著不同類型的用戶,所需要的風控策略以及所用到的相關技術也會大有不同。如:
- 線下大額業務風險低,風控側重于線下市場團隊的把握;
- 線上大額業務風控側重于個人消費能力和抵押品策略的有效制定;
- 消費分期風控側重于用戶消費行為、用戶畫像的分析;
- 現金貸風控則更注重用戶的欺詐風險和還款意愿。
??就風控模型搭建而言,機器學習等技術,雖然有效可靠,但并不能完全滿足我們對全鏈路風控彈性把握的需求,更不能做到絕對精準的預測。有的時候,我們需要切換思維,去思考所學,所思,所為,是否真正得到應用,且卓有成效? 知識(機器學習技術)和經驗(專家經驗)之間,又有怎樣的差異化和有效性?
經驗的重要性
??機器學習技術,本質上是利用統計學知識和計算機科學幫助我們優化預測的準確性,而它的難點在于數據樣本的選取和變量特征的篩選,特征篩選也基于所擁有的樣本量和所選取的數據集。數據真實性、重復性、復雜度、有效性等都會影響到模型的結果。一旦數據有問題,分析人員又不完全熟悉整個數據處理的思路和流程,那模型的效果就會大打折扣。況且業務會隨行業環境、政策要求、用戶整體素質、產品形態調整等因素的改變而改變。
??總之,風控這行,我們不完全依賴于技術!要建立全域思維!
??對于算法和模型人員,也許花一個月時間用多種算法吭哧吭哧做了各種測試,辛辛苦苦將auc提高了5個點,卻發現,它的效果遠比不上輕輕松松引進的一個全新的業務特征。心里會很不是滋味,有口無言,然后懷疑數學這們學科藝術的價值。
??FICO之所以經典,就在于它根據金融行業經驗和用戶基本屬性,用最簡單的評價標準,做最簡單的用戶畫像,設計簡簡單單的一些準入規則。剩下的,就是不斷的優化迭代具體的風控策略、數據和模型了。這樣的策略,既不會讓業務理解起來很復雜,保證了用戶體驗,保證了風控模型的可解釋性,也會將風險控制在合理的范圍內。
??再從專家角度考慮下。專家之所以成為專家,局長之所以成為局長,就是因為現實中,影響一個事件結果的因素太復雜了,這些專家、局長就是經驗的總成和代表。他們本身經過相關領域文化、知識、經驗的多次、多層、長時間的訓練和熏陶,自我已迭代出一套非常適應當下系統的策略和思考模型。本質上他們個人就是一個模型,準確性強,穩定性高,且權重系數極大,往往是我們底層職員的n倍,為何不用呢?
- 領導的作用,在于把我們職員的勞動做歸納總結,向企業內外部做整體有效的輸出,為什么不佩服呢?
- 朋友的作用,在于將他多年來的所見所聞,以口傳心授的方法轉變為你自己的見聞,為什么不喜歡呢?
- 書籍的作用,在于幫我們記錄過去幾千年歷史文化知識的結晶,為什么不學呢?
??學習這回事兒,并不單單是自己啃書本,而是通過一切可以接觸到的有效的途徑去優化自己的行為。讀書,交友,旅行,思考,試錯,都是好方法。
拍腦袋策略
??所謂互金風控的拍腦袋策略,簡單說就是業務經驗與數據分析的總和,更多用于準入、反欺詐、授信的規則設計當中,多為一些你無法通過數據做合理解釋,但確確實實認為它存在的那些業務變量。有很多規則只能通過經驗來總結,因為數據有一個極大的弊端就是滯后性和局限性。
??舉幾個例子,當遇到下面的問題時,你的風控模型能做到提前預知、有效防范嗎?
??如:
??或者:
??答案是幾乎不可能。在經濟學中有個理論:市場有效性假說。雖然這個理論很牛,但在內部市場和外部市場的共同作用中,或者類似經濟危機爆發這類突然事件的發生,它的解釋力度受到了非常大的局限性?!臼袌鲇行浴?/p>
??回到風控模型的搭建中,純模型的思維,也不都是有效的。舉幾個栗子:
??①我們對接了多頭借貸信息。發現大部分用戶1個月內小貸的申請次數分布在1~30次之間,次數越多,用戶數越少,基本是一個冪律分布的形態;貸后分析結果為申請5次以內的用戶逾期率最低,往高遞增。如果用算法去做一個針對弱變量的模型,也許會有一定作用。但若從業務角度來講,我們基本認為一個用戶若是資質優秀,基本大量平臺的風控都能通過,他也不需要借那么多錢。能夠在短時間內申請30次以上借貸的,要么就是有極大借貸需求,要么就是鬧著玩,要么就是純擼貸的。這部分用戶,即使不通過貸后表現去觀察他們,也可以根據經驗做出判斷:高危群體(寧可誤殺,也不放過),這就是所謂的專家經驗。
??②我們拿到了公檢法的名單。暫時無法判斷一個在法院失信卻偏偏在其他借貸平臺正常還款的用戶的營銷價值。由于該類用戶樣本量小,數據分析肯定會失真,那我們只能從經驗上判斷,通過幾個類似的變量給這個客戶打個標簽,就是我們對這個客戶信用的初步判斷,可以作為把該類數據引入下一個模型深度加工的依據。
??③我們拿到了多家三方的借貸信息。發現有些用戶只在一家機構有逾期記錄并且已經入黑,在其他機構還款都正常,我們不敢輕易放過他,但也不想錯過,因為業務當中的流量、數據、風控、管理、合作等等,都是可見的成本。從規則的角度,大部分風控人員會拒絕該類用戶;從模型的角度,樣本量少到根本無法判斷此類用戶的逾期風險指標;那我們就可以從專家評分的角度出發,選幾個與該變量類似但互為獨立的變量,做加權,求總分,如10個變量,總分100,命中1家黑名單的權重系數為5,兩次就為10,普通借貸還款記錄權重為1~3,最終加權得到總分,就基本可以給這個客戶做個簡單的逾期風險評級,再做進一步決策。
??最后一個問題,專家怎么拍腦袋?那么多年的經驗告訴他:有時候,老子說啥就是啥!
代碼編寫思維
??既然是專家評分,肯定不能復雜,于是我們的思路就是設計簡單的規則,然后加權求和。
怎么做才能更好
??系統 + 策略 + 規則 + 專家評分 + 量化模型,這是基本配置。之后,就是我們分析人員和模型人員根據業務發展,針對具體規則、數據、算法而作出的一次次辛勤的優化和迭代。
??在此,感謝大家(包括我自己)為中國科技金融整體的發展和推動所作出的付出和貢獻,前方的路,我們還要走很久很久。
總結
以上是生活随笔為你收集整理的【科技金融】专家评分卡和机器学习评分卡的差异化和必要性的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 【思维训练】刺激战场极寒模式下带妹吃鸡的
- 下一篇: 【科技金融】互金欺诈黑话大集锦