[数理知识]统计决策理论——贝叶斯决策与两类错误率
文章目錄
- 前序
- 1 決策理論與方法
- 1.1 基于先驗概率的決策過程
- 1.2 基于貝葉斯公式的決策過程
- 1.3 決策錯誤率
- 2 貝葉斯決策的優化
- 2.1 最小錯誤率貝葉斯決策
- 2.1.1 二分類問題的決策錯誤率
- 2.1.2 二分類問題的決策面
- 2.2 最小風險貝葉斯決策
- 2.2.1 決策風險及其計算
- 2.2.2 最小風險貝葉斯決策向最小錯誤率決策的轉化
- 3 兩類錯誤率
- 3.1 正確分類的指標
- 3.2 錯誤分類的指標
- 3.3 ROC曲線
前序
[數理知識]貝葉斯公式和最大似然估計筆記
1 決策理論與方法
1.1 基于先驗概率的決策過程
記 xxx 為觀察到的樣本特征,分類空間為A={a1,a2...,an}A=\{a_1, a_2...,a_n\}A={a1?,a2?...,an?},其中aia_iai?為第iii個類,P(ai)P(a_i)P(ai?)為類aia_iai?的發生概率。
- x=[x1,x2,...,xd]Tx=[x_1,x_2,...,x_d]^Tx=[x1?,x2?,...,xd?]T為由ddd維空間組成的特征向量。
- 當 P(aj)>P(aothers)P(a_j)>P(a_{others})P(aj?)>P(aothers?)時,記決策規則x∈ajx \in a_jx∈aj?。
- 當做出決策x∈ajx \in a_jx∈aj?之后,單類分類錯誤率P(errorj)=1?P(aj)P({error}_j)=1-P(a_j)P(errorj?)=1?P(aj?),即 x?ajx \notin a_jx∈/?aj?的概率。
可以看到,一般決策過程僅依靠先驗概率P(aj)P(a_j)P(aj?),使得對 xxx 的觀察(特征參考)并沒有對決策過程產生影響,總體錯誤率仍有降低的空間。
1.2 基于貝葉斯公式的決策過程
貝葉斯決策:在觀察到xxx 的樣本特征后,基于貝葉斯公式,可以有效降低分類錯誤率:
P(ai∣x)=p(x∣ai)P(ai)p(x)=p(x∣ai)P(ai)∑j=1np(x∣aj)P(aj)\begin{aligned} P(a_i|x)&=\frac{p(x|a_i)P(a_i)}{p(x)} \\ &=\frac{p(x|a_i)P(a_i)}{ \sum_{j=1}^n{ p(x|a_j)P(a_j) } }\\ \end{aligned} P(ai?∣x)?=p(x)p(x∣ai?)P(ai?)?=∑j=1n?p(x∣aj?)P(aj?)p(x∣ai?)P(ai?)??其中, p(x∣ai)p(x|a_i)p(x∣ai?)是類條件密度,P(ai)P(a_i)P(ai?)是先驗概率,p(x)p(x)p(x)是總體密度,P(ai∣x)P(a_i|x)P(ai?∣x)是后驗概率;
- 因此在本質上,貝葉斯決策是指:[后驗概率]等于[先驗概率]與[類條件密度]的乘積,最后采用[總體密度]做歸一化。同時,[總體密度]由全概率公式又可以轉化為所有類的[先驗概率]與其[類概率密度]乘積之和。
貝葉斯決策也被稱作統計決策理論。
- 記λ=p(x∣ai)p(x)\lambda = \frac{p(x|a_i)}{p(x)}λ=p(x)p(x∣ai?)? ,所以基于貝葉斯決策的決策的錯誤率:
P(errori)=1?P(ai∣x)=1?λ×P(ai)\begin{aligned} P({error}_i)&=1-P(a_i|x) \\ &=1-\lambda \times P(a_i) \end{aligned} P(errori?)?=1?P(ai?∣x)=1?λ×P(ai?)?
貝葉斯分類決策增益 λ\lambdaλ 是對先驗概率P(ai)P(a_i)P(ai?)的增益,是基于對xxx的觀測而得到的,其值等于類條件概率在總體密度上的歸一值,增益程度取決于類條件概率 p(x∣ai)p(x|a_i)p(x∣ai?)——當aia_iai?越容易導致xxx的發生時(類條件概率越大),則增益程度越高(λ\lambdaλ越大),第iii類的分類錯誤率越低。
1.3 決策錯誤率
(總體)決策錯誤率定義為所有服從同樣分布的獨立樣本上的單類錯誤率的期望,即:
P(e)=∫P(e∣x)×p(x)dxP(e)=\int P(e|x) \times p(x) dxP(e)=∫P(e∣x)×p(x)dx
- 其中,P(e∣x)P(e|x)P(e∣x)即為單類分類錯誤率P(errori)P({error}_i)P(errori?)在連續函數上的表示法。
- 顯然,貝葉斯決策由于增益λ\lambdaλ的存在,能有效降低決策錯誤率。
2 貝葉斯決策的優化
2.1 最小錯誤率貝葉斯決策
對于每次決策,取后驗概率最大的決策,即可使得決策錯誤率最小。
P(ai∣x)=max?j=1..nP(aj∣x)P(a_i|x)=\max_{j=1..n} {P(a_j|x)}P(ai?∣x)=j=1..nmax?P(aj?∣x)
2.1.1 二分類問題的決策錯誤率
針對二分類問題,由于總體概率密度p(x)p(x)p(x)相同,有以下變體:
l(x)=p(x∣a1)p(x∣a2)?λ=P(a2)P(a1),x∈{a1a2l(x)=\frac{p(x|a_1)}{p(x|a_2)} \gtrless \lambda=\frac{P(a_2)}{P_(a_1)}, x \in \begin{cases} {a_1}\\ {a_2} \end{cases} l(x)=p(x∣a2?)p(x∣a1?)??λ=P(?a1?)P(a2?)?,x∈{a1?a2??
當l(x)l(x)l(x)大于閾值λ\lambdaλ時,分為第一類,否則為第二類。(注意:此處的λ\lambdaλ與上文的"增益"概念不同)
m?n,x∈{a1a2m\gtrless n,x \in \begin{cases} {a_1}\\ {a_2} \end{cases}m?n,x∈{a1?a2??Tips: 上式可用偽代碼表示為:x=m>n?a1:a2x = m>n ? a_1:a_2x=m>n?a1?:a2?
2.1.2 二分類問題的決策面
當l(x)=λl(x)=\lambdal(x)=λ,即后驗概率P(a1∣x)=P(a2∣x)P(a_1|x)=P(a_2|x)P(a1?∣x)=P(a2?∣x)時,使得樣本 xxx 落在分界線左側(l(x)>λl(x)>\lambdal(x)>λ)時分為第一類,否則為第二類;該分界線被稱為決策面或分類面。
- 記?(∞,t)-(\infin,t)?(∞,t)為?1\real_1?1?,(t,∞)(t,\infin)(t,∞)為?2\real_2?2?;ttt為分類面對xxx的劃分值。
則二分類問題中的平均錯誤率為:
P(e)=∫?∞tP(a2∣x)p(x)dx+∫t∞P(a1∣x)p(x)dx=∫?∞tp(x∣a2)P(a2)dx+∫t∞p(x∣a1)P(a1)dx=∫?1p(x∣a2)P(a2)dx+∫?2p(x∣a1)P(a1)dx=P(a2)∫?1p(x∣a2)dx+P(a1)∫?2p(x∣a1)dx=P(a2)P2(e)+P(a1)P1(e)\begin{aligned} P(e) &= \int_{-\infin}^{t}{P(a_2|x)p(x)dx}+ \int_{t}^{\infin}{P(a_1|x)p(x)dx} \\ &= \int_{-\infin}^{t}{p(x|a_2)P(a_2)dx}+ \int_{t}^{\infin}{p(x|a_1)P(a_1)dx} \\ &= \int_{\real_1}{p(x|a_2)P(a_2)dx}+ \int_{\real_2}{p(x|a_1)P(a_1)dx} \\ &= P(a_2)\int_{\real_1}{p(x|a_2)dx}+ P(a_1)\int_{\real_2}{p(x|a_1)dx} \\ &= P(a_2)P_2(e)+ P(a_1)P_1(e) \end{aligned} P(e)?=∫?∞t?P(a2?∣x)p(x)dx+∫t∞?P(a1?∣x)p(x)dx=∫?∞t?p(x∣a2?)P(a2?)dx+∫t∞?p(x∣a1?)P(a1?)dx=∫?1??p(x∣a2?)P(a2?)dx+∫?2??p(x∣a1?)P(a1?)dx=P(a2?)∫?1??p(x∣a2?)dx+P(a1?)∫?2??p(x∣a1?)dx=P(a2?)P2?(e)+P(a1?)P1?(e)?
- 注意到,P1(e)=∫?2p(x∣a1)dxP_1(e)=\int_{\real_2}{p(x|a_1)dx}P1?(e)=∫?2??p(x∣a1?)dx,是把第一類的xxx決策為第二類的錯誤率;反之亦然。
- 兩類錯誤率對相應類別的先驗概率求取加權和即為二分類問題中的分類錯誤率。
2.2 最小風險貝葉斯決策
記λ(βi,aj)\lambda(\beta_i,a_j)λ(βi?,aj?)是指對實際為aja_jaj?的樣本xxx采取決策βi\beta_iβi?所帶來的風險(損失)。
- 注意到:λ(βi,aj)\lambda(\beta_i,a_j)λ(βi?,aj?),當i=ji=ji=j時,分類正確;i=?ji =\not ji=??j時,為把屬于iii類分為第jjj類的損失。
2.2.1 決策風險及其計算
若有 nnn 個類和 kkk 個決策,則損失是:
R(βi∣x)=∑j=1nλ(βi,aj)P(aj∣x),i=1,...kR(\beta_i|x)=\sum_{j=1}^n{\lambda(\beta_i,a_j)P(a_j|x)},i=1,...k R(βi?∣x)=j=1∑n?λ(βi?,aj?)P(aj?∣x),i=1,...k對于決策規則β(x)=∑βΔ\beta(x)=\sum{\beta_{\Delta}}β(x)=∑βΔ?,其損失的總體期望為:
R(β)=∫R(βΔ∣x)p(x)dxR(\beta)=\int{R(\beta_{\Delta}|x)p(x)dx} R(β)=∫R(βΔ?∣x)p(x)dx
對于一個實際問題,求取最小風險貝葉斯決策可以按照以下步驟求取:
P(ai∣x)=p(x∣ai)P(ai)∑j=1np(x∣aj)P(aj),i=1,2,...,nP(a_i|x)=\frac{p(x|a_i)P(a_i)}{ \sum_{j=1}^n{ p(x|a_j)P(a_j) } },i=1,2,...,nP(ai?∣x)=∑j=1n?p(x∣aj?)P(aj?)p(x∣ai?)P(ai?)?,i=1,2,...,n
R(βi∣x)=∑j=1nλ(βi,aj)P(aj∣x),i=1,...kR(\beta_i|x)=\sum_{j=1}^n{\lambda(\beta_i,a_j)P(a_j|x)},i=1,...kR(βi?∣x)=j=1∑n?λ(βi?,aj?)P(aj?∣x),i=1,...k
β?=argmin?i=1,...,kR(βi∣x)\beta^* = arg\min_{i=1,...,k}R(\beta_i|x)β?=argi=1,...,kmin?R(βi?∣x)
2.2.2 最小風險貝葉斯決策向最小錯誤率決策的轉化
考慮二分類問題,簡記λij=λ(βi,aj)\lambda_{ij}=\lambda(\beta_i,a_j)λij?=λ(βi?,aj?):
λ11P(a1∣x)+λ12P(a2∣x)?λ21P(a1∣x)+λ22P(a2∣x),x∈{a1a2??????①\lambda_{11}P(a_1|x)+\lambda_{12}P(a_2|x) \lessgtr \lambda_{21}P(a_1|x)+\lambda_{22}P(a_2|x), x \in \begin{cases} {a_1}\\ {a_2} \end{cases} \cdot\cdot\cdot\cdot\cdot\cdot ① λ11?P(a1?∣x)+λ12?P(a2?∣x)?λ21?P(a1?∣x)+λ22?P(a2?∣x),x∈{a1?a2????????①
- 注意到:λij\lambda_{ij}λij?當i=ji=ji=j時,分類正確;i=?ji =\not ji=??j時,為把屬于iii類分為第jjj類的損失。
注意:此處的 ?\lessgtr? 與上文中的 ?\gtrless? 正好相反。
不失一般性,可以假設λ11<λ21\lambda_{11}<\lambda_{21}λ11?<λ21?,λ22<λ12\lambda_{22}<\lambda_{12}λ22?<λ12?。
則①式可化為:
(λ11?λ21)P(a1∣x)?(λ22?λ12)P(a2∣x),x∈{a1a2??????②P(a2∣x)P(a1∣x)?(λ21?λ11)(λ12?λ22),x∈{a1a2p(x∣a2)P(a2)p(x∣a1)P(a1)=P(a2∣x)p(x)P(a1∣x)p(x)?(λ21?λ11)(λ12?λ22),x∈{a1a2l(x)?1=p(x∣a2)p(x∣a1)?λ?1=P(a1)P(a2)×(λ21?λ11)(λ12?λ22),x∈{a1a2l(x)=p(x∣a1)p(x∣a2)?λ=P(a2)P(a1)×(λ12?λ22)(λ21?λ11),x∈{a1a2\begin{aligned} (\lambda_{11}-\lambda_{21})P(a_1|x) &\lessgtr (\lambda_{22}-\lambda_{12})P(a_2|x), x \in \begin{cases} {a_1}\\ {a_2} \end{cases} \cdot\cdot\cdot\cdot\cdot\cdot ②\\ \frac{P(a_2|x)}{P(a_1|x)} &\lessgtr \frac{(\lambda_{21}-\lambda_{11})}{(\lambda_{12}-\lambda_{22})}, x \in \begin{cases} {a_1}\\ {a_2} \end{cases}\\ \frac{p(x|a_2)P(a_2)}{p(x|a_1)P(a_1)} = \frac{P(a_2|x)p(x)}{P(a_1|x)p(x)} &\lessgtr \frac{(\lambda_{21}-\lambda_{11})}{(\lambda_{12}-\lambda_{22})}, x \in \begin{cases} {a_1}\\ {a_2} \end{cases}\\ l(x)^{-1} = \frac{p(x|a_2)}{p(x|a_1)} &\lessgtr \lambda^{-1} = \frac{P(a_1)}{P(a_2)} \times \frac{(\lambda_{21}-\lambda_{11})}{(\lambda_{12}-\lambda_{22})}, x \in \begin{cases} {a_1}\\ {a_2} \end{cases}\\ l(x) = \frac{p(x|a_1)}{p(x|a_2)} &\gtrless \lambda = \frac{P(a_2)}{P(a_1)} \times \frac{{(\lambda_{12}-\lambda_{22})}}{(\lambda_{21}-\lambda_{11})}, x \in \begin{cases} {a_1}\\ {a_2} \end{cases} \end{aligned} (λ11??λ21?)P(a1?∣x)P(a1?∣x)P(a2?∣x)?p(x∣a1?)P(a1?)p(x∣a2?)P(a2?)?=P(a1?∣x)p(x)P(a2?∣x)p(x)?l(x)?1=p(x∣a1?)p(x∣a2?)?l(x)=p(x∣a2?)p(x∣a1?)???(λ22??λ12?)P(a2?∣x),x∈{a1?a2????????②?(λ12??λ22?)(λ21??λ11?)?,x∈{a1?a2???(λ12??λ22?)(λ21??λ11?)?,x∈{a1?a2???λ?1=P(a2?)P(a1?)?×(λ12??λ22?)(λ21??λ11?)?,x∈{a1?a2???λ=P(a1?)P(a2?)?×(λ21??λ11?)(λ12??λ22?)?,x∈{a1?a2???
- 當 λ11=λ22=0\lambda_{11}=\lambda_{22}=0λ11?=λ22?=0,λ12=λ21=c\lambda_{12}=\lambda_{21}=cλ12?=λ21?=c (ccc為正常數)時,就是最小錯誤率貝葉斯分類決策。即分類正確時無風險,分類錯誤時風險一致。
注意:此處的 ?\lessgtr? 與上文中的 ?\gtrless? 的方向,后者意為 x=m>n?a1:a2x = m>n?a_1:a_2x=m>n?a1?:a2? 。
3 兩類錯誤率
在二分類問題中,有以下決策分布表:
| 決策分布表 | 決策|
| (真陽)TP | (假陰)FN |
| (假陽)FP | (真陰)TN |
| P(陽性)和N(陰性)之間的線即為分界線;P高則N少,反之亦然。 | |
3.1 正確分類的指標
- 靈敏度(命中率,sensitivity) = 真陽除以所有正類:
Sn=TPTP+FN???TPRS_n=\frac{TP}{TP+FN} \cdot\cdot\cdot TPRSn?=TP+FNTP????TPR - 特異度(敏感率,specificity) = 真陰除以所有負類:
Sp=TNTN+FP???TNRS_p=\frac{TN}{TN+FP} \cdot\cdot\cdot TNRSp?=TN+FPTN????TNR
很容易注意到:
- SnS_nSn?表示真正的陽性樣本(正類)中有多少能被正確檢測出來;靈敏度高指的是能夠正確分辨多少目標個體。
- SnS_nSn?表示真正的陰性樣本(負類)中有多少能被正確檢測出來;特異度高指的是不易把非目標個體選中。
- 顯然,鑒于二分類器的特性,二者不可能同時取得高值(若分類器認為的P的個體數多,則N的個體數必然變少)。
3.2 錯誤分類的指標
- 第一類分類誤差(假陽性,假報率,False Alarm,Type?ⅠType-ⅠType?Ⅰ ErrorErrorError) = 假陽除以所有負類:
α=1?Sp=FPTN+FP???FPR\begin{aligned} \alpha &= 1 - S_p \\ &= \frac{FP}{TN+FP} \end{aligned} \cdot\cdot\cdot FPR α?=1?Sp?=TN+FPFP?????FPR - 第二類分類誤差(假陰性,漏檢率,Missed Detection,Type?ⅡType-ⅡType?Ⅱ ErrorErrorError) = 假陰除以所有正類:
β=1?Sn=FNTP+FN???FNR\begin{aligned} \beta&= 1 - S_n \\ &= \frac{FN}{TP+FN} \end{aligned} \cdot\cdot\cdot FNR β?=1?Sn?=TP+FNFN?????FNR
很容易注意到:
- α\alphaα表示非目標樣本中有多少會被錯誤地挑選出來。
- β\betaβ表示目標樣本中有多少會被漏檢。
- 第一類錯誤概率與第二類正確概率之和顯然為1(不是第一類就是第二類),這也是α=1?Sp\alpha = 1 - S_pα=1?Sp?的由來;反之亦然。
- 顯然,鑒于二分類器的特性,二者不可能同時取得低值(若分類器認為的P的個體數多,則N的個體數必然變少)。
3.3 ROC曲線
對于二分類任務,無法同時滿足正確分類的兩個指標同時達到較好的值,因此,引入ROC曲線作為衡量指標:
ROC曲線:
- 以第一類正確率(真陽性,靈敏度, sensitivity,TPR)為yyy軸;
- 以第一類分類誤差(假陽性,假報率,False Alarm,Type?ⅠType-ⅠType?Ⅰ ErrorErrorError,FPR)為xxx軸;
在理解上,可以這么理解——在xxx盡量小的情況下,取得較高的yyy值,是描繪ROC曲線的目標;即第一類分類時誤差小、正確率高。
注意到:第一類分類誤差實際上就是1?Sp1-S_p1?Sp?,有的文獻則以(1-特異度)為xxx軸作為介紹,但并不直觀。
- 這是標準ROC曲線,若將xxx軸取為SpS_pSp?即第二類分類正確率(真陰性,特異度,TNR),則意味著需要在曲線中找到一點,滿足一類和二類分類性能同時較高,并反向得出此時的閾值。
關于ROC曲線,可以參考>數據挖掘-分類器的ROC曲線及相關指標(ROC、AUC、ACC)詳解<
總結
以上是生活随笔為你收集整理的[数理知识]统计决策理论——贝叶斯决策与两类错误率的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 图片转链接,免费。
- 下一篇: 苹果笔记本python怎么换行_pyth