金融业信贷风控算法1-初等概率论
文章目錄
- 一. 前言
- 1.1 一個小故事
- 1.2 為什么要學(xué)習(xí)概率論
- 二. 初等概率論
- 2.1 離散隨機變量
- 2.1.1 伯努利分布
- 2.1.2 二項分布
- 2.1.3 泊松分布
- 2.1.4 幾何分布
- 2.2 期望和方差
- 2.2.1 期望和方差概述
- 2.2.2 期望與方差的性質(zhì)
- 2.2.3 幾種常見的離散型隨機變量的期望和方差
- 三. 連續(xù)型隨機變量與分布函數(shù)
- 3.1 連續(xù)型隨機變量
- 3.2 分布函數(shù)
- 3.2.1 均勻分布
- 3.2.2 正態(tài)分布
- 3.2.3 指數(shù)分布
- 四. 獨立變量,條件概率與貝葉斯公式
- 4.1 聯(lián)合分布
- 4.2 邊緣分布
- 4.3 獨立變量
- 4.4 全概率公式
- 4.5 貝葉斯公式
- 4.6 馬爾科夫矩陣
- 參考:
一. 前言
1.1 一個小故事
??盛夏的傍晚,涼風習(xí)習(xí)。明朗的月色之下,小明一邊吃著西瓜一邊在手機上看著《初等概率論》的教學(xué)視頻。聽到曉風老師慷慨激昂的聲音,小明不禁露出自信的微笑,心里想著:曉風老師講地這么好,這次我一定能把《從零入門金融業(yè)信貸風控算法》的知識學(xué)地很牢靠!未來幾天天氣應(yīng)該不錯,白天努力工作,晚上認真上課,生活真的很美好,哈哈哈!
從上述這段話里,我們得到兩類不同的信息:
1.2 為什么要學(xué)習(xí)概率論
我們身處的世界里,非確定事件是無處不在的。這里的“非確定”由兩種不同的因素造成:
現(xiàn)實生活中遇到的隨機事件更多的是由后一種情況造成的。但是并不會因為人類無法精準推算事件發(fā)生與否而放棄推算,相反,有了概率論這一利器,我們依然能夠掌握充足的規(guī)律來推算事件的發(fā)展。
二. 初等概率論
我們先定義某一個事件A所處的樣本空間Ω, Ω上事件A發(fā)生的概率P要滿足以下要求
不嚴格的情況下,我們用“隨機變量”定義某事件發(fā)生的結(jié)果
2.1 離散隨機變量
如果某隨機變量的取值個數(shù)是有限的(例如擲骰子的結(jié)果)或者至多可數(shù)的(例如一小時內(nèi)到達某窗口排隊的人群),那么我們稱之為離散型隨機變量,其取值結(jié)果的概率稱之為概率密度函數(shù)。
幾種常見的離散型隨機變量:
2.1.1 伯努利分布
單次事件A發(fā)生的概率為P(A)=𝑝,則不發(fā)生的概率為P(~A)=1?𝑝
2.1.2 二項分布
事件A發(fā)生的概率為p,不發(fā)生的概率為1-p。則試驗N次的結(jié)果中,事件A發(fā)生n次的概率為:
其中Y表示A發(fā)生的次數(shù)
參數(shù)含義:
P : 事件發(fā)生的概率 Y: 事件A發(fā)生的次數(shù)2.1.3 泊松分布
單位時間內(nèi)平均發(fā)生違約的人為𝜆, 則觀察到有n個人發(fā)生違約的概率為:
參數(shù)含義:
𝜆 單位時間內(nèi)平均發(fā)生違約的人 P 概率 k 發(fā)生違約人為k k! k的階乘 e 自然常數(shù),大約為2.71828……,就是對數(shù)函數(shù)lnx的底特別地,t時間內(nèi)發(fā)生違約的人數(shù)為:
泊松分布是二項分布n很大,p很小的極限形式,也就是說泊松分布可以由二項分布推倒出來
在二項分布Binomial(N,p)中,當N很大、p很小時:
泊松分布更通俗的理解:
知乎上大佬 泊松分布公式:
最小二乘法:
https://www.zhihu.com/question/37031188
泊松分布通俗的解釋:
https://blog.csdn.net/ccnt_2012/article/details/81114920
2.1.4 幾何分布
在循環(huán)授信產(chǎn)品(如信用卡)中,假設(shè)每一期發(fā)生違約的概率為p,則第一次違約發(fā)生在第k期的事件服從集合分布,概率密度函數(shù)為:
2.2 期望和方差
2.2.1 期望和方差概述
假設(shè)信貸人群的規(guī)模為100人,每人在未來一個月內(nèi)發(fā)生違約的概率是0.05。二項分布告訴我們,違約人數(shù)為n的概率為:
當違約人數(shù)很多時,這一概率很小;反之,當違約人數(shù)比較小時,這一概率較大。我們用“期望值”來描述人數(shù)可能的規(guī)模:
盡管我們可以用期望值來刻畫違約人群可能的規(guī)模,但是由于有隨機性的存在,真實情況下觀察到的違約人群不一定會精準地等于期望值。例如,實際觀察到的違約人群可能是4,也可能是6或者7。因此,我們還需要用另一個量來刻畫實際觀察到的人數(shù)與期望值的差:𝑥?𝐸(𝑥)。注意到,同樣也由于隨機性的存在, 𝑥?𝐸(𝑥)依然是隨機變量。我們用這個隨機變量的平方的期望來進行刻畫,稱之為方差:
注意到,E(x)并不是隨機變量。展開上式,有
2.2.2 期望與方差的性質(zhì)
期望的性質(zhì):
期望不是隨機變量
可加性:𝐸(𝑋+𝑌)=𝐸(𝑋)+𝐸(𝑌)
倍數(shù)性:𝐸(𝑘𝑋)=𝑘𝐸(𝑋), k為常數(shù)
方差的性質(zhì):
方差不是隨機變量
非負性:𝑣𝑎𝑟(𝑋)≥0
倍數(shù)性:𝑣𝑎𝑟(𝑘𝑋)=𝑘^2 𝑣𝑎𝑟(𝑋), k為常數(shù)
2.2.3 幾種常見的離散型隨機變量的期望和方差
三. 連續(xù)型隨機變量與分布函數(shù)
3.1 連續(xù)型隨機變量
與離散型隨機變量相對應(yīng)的是,取值為連續(xù)數(shù)值的連續(xù)型隨機變量,例如違約人群的欠款金額。對于連續(xù)型隨機變量,概率𝑃(𝑋=𝑥)是沒有意義的(永遠為0),我們需要考察區(qū)間化的概率𝑃(𝑋<𝑥).此時𝑃(𝑋<𝑥)是一個與x相關(guān)的函數(shù)。例如,在數(shù)軸上的有限區(qū)間[0,1]中隨機選取一點X,X小于0.5的概率必然大于X小于0.1的概率。我們用累計分布函數(shù)F(x)來刻畫𝑃(𝑋<𝑥)。特別地,如果F(x)可導(dǎo),其導(dǎo)函數(shù)𝑓(𝑥)=(𝑑𝐹(𝑥))/𝑑𝑥稱為連續(xù)型隨機變量的概率密度函數(shù)。
𝐹(𝑥)的性質(zhì):
𝐹(𝑥)關(guān)于x單調(diào)上升(同時也使得𝑓(𝑥)大于0)
連續(xù)型隨機變量的期望與方差
我們依然可以用期望與方差來刻畫大樣本下連續(xù)型隨機變量可能的取值大小以及波動
3.2 分布函數(shù)
3.2.1 均勻分布
𝒙~𝑼𝒏𝒊𝒇𝒐𝒓𝒎(𝒂,𝒃)
X落在區(qū)間[a,b]的任何地方的概率都是一樣的。
3.2.2 正態(tài)分布
Font metrics not found for font: .
最常見的隨機變量,分布函數(shù)也成為高斯分布
特別地,當Font metrics not found for font: .時,稱之為標準正態(tài)分布
由于大數(shù)定律和中心極限定理,正態(tài)分布是很多分布的極限分布。同時,如果一個量受到很多獨立的隨機因素的影響,最終這個量也會漸進服從正態(tài)分布。
與正態(tài)分布相關(guān)的還有卡方分布、t-分布和F-分布。
3.2.3 指數(shù)分布
指數(shù)分布詳解:
https://blog.csdn.net/ccnt_2012/article/details/89875865
四. 獨立變量,條件概率與貝葉斯公式
4.1 聯(lián)合分布
除了單個隨機變量可以有分布函數(shù)外,可以有2個或者多個隨機變量擁有聯(lián)合分布函數(shù)。例如,我們關(guān)心信貸違約人群的年齡分布和收入的分布,即𝑃(𝑎𝑔𝑒<𝑎,𝑖𝑛𝑐𝑜𝑚𝑒<𝑏)。聯(lián)合分布函數(shù)用F(X,Y)表示
非負性:0≤𝐹(𝑋,𝑌)≤1
單調(diào)性: 𝐹(𝑋,𝑌)關(guān)于X和Y單調(diào)上升
收斂性:
4.2 邊緣分布
在隨機變量的聯(lián)合分布𝑃(𝑋,𝑌)里,如果我們只關(guān)心其中一個變量X的分布,就得到X的邊緣分布:
4.3 獨立變量
如果X和Y的聯(lián)合分布等于二者的邊緣分布的乘積,則稱X和Y是獨立的:
𝑓(𝑋,𝑌)=𝑓(𝑋)𝑓(𝑌)
此時,X的變化不會引起Y的變化,反之亦然。
案例:
下圖是X和Y的聯(lián)合分布,例如 P(X=x1,Y=y1)=0.1
從X的邊緣分布P(X)=∑𝑃(𝑋,𝑌) 可得P(X=x1)=0.1+0.2+0.3=0.6
同理可得,P(Y=y1)=0.1+0.1=0.2
由于并不是所有的P(X,Y)=P(X)*P(Y),因此X和Y不獨立
4.4 全概率公式
假設(shè)如下一個場景:考慮校園貸中的違約事件與授信人的學(xué)歷的關(guān)系。全部樣本的學(xué)歷為{本科,碩士,博士}。用Y=1表示違約,Y=0表示非違約;用X=1,2,3分別表示學(xué)歷為本科,碩士和博士。由于數(shù)據(jù)的搜集是按照學(xué)歷進行整理的,因此看不到全部人群的違約狀態(tài)。但是每個學(xué)歷都能看到具體的違約狀態(tài),即P(Y|X)是已知的;學(xué)歷的分布也是已知,即P(X)也是已知的,如何求出全部人群的違約概率P(Y)?
假設(shè)有N個樣本,因此本科,碩士,博士的人群的期望為N*P(X=1), N*P(X=2), N*P(X=3). 各自對應(yīng)的違約人群的期望為N*P(X=1)*P(Y|X=1), N*P(X=2) *P(Y|X=2), N*P(X=3)*P(Y|X=3). 所以總的違約人群的期望為D=N*P(X=1)*P(Y|X=1)+N*P(X=2) *P(Y|X=2)+N*P(X=3)*P(Y|X=3). 則違約概率等于P(Y)=D/N=P(X=1)*P(Y|X=1)+P(X=2) *P(Y|X=2)+P(X=3)*P(Y|X=3). 這就是全概率公式:
4.5 貝葉斯公式
在上述的案例里,當我們得知學(xué)歷的分布以及每個學(xué)歷對應(yīng)的違約概率后,就能得到某個樣本屬于違約的概率。但是對于逆問題,即得知某樣本屬于違約的時候,他的學(xué)歷最有可能的是?解決這個問題,就要引入貝葉斯公式:
貝葉斯公式的思想在概率統(tǒng)計模型、機器學(xué)習(xí)模型的很多領(lǐng)域都有應(yīng)用。
貝葉斯公式的詳細解釋:
https://matongxue.blog.csdn.net/article/details/81113923
https://zhuanlan.zhihu.com/p/78297343
4.6 馬爾科夫矩陣
在信貸業(yè)務(wù)中,對企業(yè)或個人進行信用評級是信貸風控工作中的常用手段。假設(shè)評級結(jié)果只有A,B和C三種狀態(tài)。當前的評級結(jié)果為𝑅𝑡𝑅_𝑡Rt?, 下一階段的評級結(jié)果為𝑅(𝑡+1)𝑅_{(𝑡+1)}R(t+1)?. 于是形成一個3x3的狀態(tài)矩陣,其中第i行第j列的元素表示從當前第i個狀態(tài)變?yōu)橄乱浑A段為第j個狀態(tài)的概率:
從該矩陣的定義可以看出,每一行的概率值相加等于1。這樣的矩陣稱為馬爾科夫矩陣。
用符號𝑀(1)𝑀^{(1)}M(1)表示經(jīng)過一個階段后的狀態(tài)的轉(zhuǎn)移矩陣,即從𝑅𝑡𝑅_𝑡Rt?轉(zhuǎn)移到𝑅(𝑡+1)𝑅_{(𝑡+1)}R(t+1)?.的概率。如果考察經(jīng)過2個階段的轉(zhuǎn)移,即𝑅𝑡→𝑅(𝑡+1)→𝑅(𝑡+2)𝑅_𝑡→𝑅_{(𝑡+1)}→𝑅_{(𝑡+2)}Rt?→R(t+1)?→R(t+2)?的轉(zhuǎn)移概率𝑀(2)𝑀^{(2)}M(2),我們有
可以驗證的是,𝑀(2)𝑀^{(2)}M(2)也滿足“行相加等于1”的條件,即𝑀(2)𝑀^{(2)}M(2)也屬于馬爾科夫矩陣。
馬爾科夫矩陣的穩(wěn)定性
假設(shè)初始狀態(tài)中,A、B、C三種評級的人群個數(shù)分別為100、200、150,經(jīng)過第1階段的轉(zhuǎn)移后,三種評級的人群個數(shù)分別為130、205、115,經(jīng)過第2階段的轉(zhuǎn)移后,三種評級的人群個數(shù)分別為137、209、104,…,經(jīng)過第9階段的轉(zhuǎn)移后,三種評級的人群個數(shù)分別為139、213、98,經(jīng)過第10階段的轉(zhuǎn)移后,三種評級的人群個數(shù)分別為139、213、98,后面的轉(zhuǎn)移后的人數(shù)保持不變。因此馬爾科夫矩陣具有一個很獨特的性質(zhì):經(jīng)過若干次轉(zhuǎn)移后,三種狀態(tài)的人群分布不再變化。
參考:
總結(jié)
以上是生活随笔為你收集整理的金融业信贷风控算法1-初等概率论的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 嵌入式系统Linux Arm安装net6
- 下一篇: 一些英语谚语