PRML(2)--绪论(下)模型选择、纬度灾难、决策论、信息论
PRML緒論
- 1.3 模型選擇
- 1.4 緯度災難
- 1.5 決策論
- 1.5.1最小錯誤分率
- 1.5.2最小化期望損失
- 1.5.3拒絕選項
- 1.5.4推斷和決策
- 1.5.5 回歸問題的損失函數(shù)
- 1.6 信息論
1.3 模型選擇
模型過復雜會造成過擬合問題,需要通過一些技術來降低模型的復雜度。
就最大似然而言,可以增加一個懲罰項來補償過于復雜的模型造成的過擬合問題。
赤池信息準則,使式1.73最大,M是模型中可調(diào)節(jié)參數(shù)的數(shù)量:
lnp(D∣wML)?Mlnp(\mathcal{D}|\bm{w}_ML)-Mlnp(D∣wM?L)?M
1.73式?是一個變體,被稱作貝葉斯信息準則,但是沒有考慮模型參數(shù)的不確定性。
1.4 緯度災難
一個三分類問題畫格子分類。隨著輸入維度的增加會造成的問題:
高維空間中的直覺錯誤:
3. 高維空間中,一個球的體積大部分會聚集在表面附近薄球上
4. 在高緯空間中,高斯分布的概率質(zhì)量會集中在某一半徑的薄球上
1.5 決策論
決策論和概率論結合:能夠在涉及不確定性的條件下作出最優(yōu)決策。
例如:依據(jù)病人X光片,判斷病人是否得了癌癥,并依據(jù)判斷給出是否需要治療的決定。
概率論如何在決策時起作用
1.5.1最小錯誤分率
需要一個規(guī)則將不同的x分到合適的類別中,按照規(guī)則會把輸入空間分成不同的決策區(qū)域Rk\mathcal{R}_kRk?。在Rk\mathcal{R}_kRk?中的點將被分為Ck\mathcal{C}_kCk?類。
考慮一維數(shù)軸上的兩分類問題,錯分概率為:
p(mistake)=p(x∈R1,C2)+p(x∈R2,C1)=∫R1p(x,C2)dx+∫R2p(x,C1)dx(1.78)p(mistake)=p(x\in\mathcal{R}_1,\mathcal{C}_2)+p(x\in\mathcal{R}_2,\mathcal{C}_1)=\int_{\mathcal{R}_1}p(x,\mathcal{C}_2)dx + \int_{\mathcal{R}_2}p(x,\mathcal{C}_1)dx\tag{1.78} p(mistake)=p(x∈R1?,C2?)+p(x∈R2?,C1?)=∫R1??p(x,C2?)dx+∫R2??p(x,C1?)dx(1.78)
為了使(1.78)式最小,那么可以得到一個決策規(guī)則:如果p(x,C1)>p(x,C2)p(x,\mathcal{C}_1)>p(x, \mathcal{C}_2)p(x,C1?)>p(x,C2?)就將x劃分為類別1。也等價于將x 分入到具有最大后驗概率的類別中。
1.5.2最小化期望損失
實際引用中,目標遠比最小化錯誤分類率更加復雜。
就癌癥判斷例子中每種錯誤分類所帶來的決策損失是不同的:健康誤判為有病–多了復查,有病誤判為健康–錯過最佳治療時間。
損失函數(shù)(loss function) 也被稱為代價函數(shù)(cost function):對所有可能的決策或者動作 可能產(chǎn)生的損失的一種整體度量。目標是:最小化期望損失。
期望損失的計算:x屬于Ck\mathcal{C}_kCk?類,我們將其劃分為Cj\mathcal{C}_jCj?類,造成的損失為Lkj\mathcal{L}_{kj}Lkj?
E[L]=∑k∑j∫RjLkjp(x,Ck)dx\mathbb{E}[L]=\sum_k\sum_j\int_{\mathcal{R}_j}L_{kj}p(x,\mathcal{C}_k)dxE[L]=k∑?j∑?∫Rj??Lkj?p(x,Ck?)dx
得出的結論還是需要:后驗概率
1.5.3拒絕選項
在類別歸屬相對不確定的時候,避免作出決策是更合適的選擇。這樣會使模型的分類錯誤率降低,這被稱為拒絕選項(reject option)。
癌癥的例子:使用自動化系統(tǒng)來對幾乎沒有懷疑的X光片進行分類,把不易分類的留給人類專家。
一種簡單的拒絕實現(xiàn)方式:引入一個閾值θ\thetaθ,拒絕后驗概率p(Ck∣x)p(\mathcal{C}_k|x)p(Ck?∣x)的最大值小于等θ\thetaθ的那些輸入x。
1.5.4推斷和決策
解決決策問題的三種方法:
三種方法各有優(yōu)缺點。
1.5.5 回歸問題的損失函數(shù)
回到曲線擬合問題:對于每一個輸入x,對應目標值t的估計值為y(x), 造成的損失是L(t,y(x)),那么期望損失為:
E[L]=∫∫L(t,y(x))p(x,t)dxdt\mathbb{E}[L]=\int\int L(t,y(x))p(x,t)dxdtE[L]=∫∫L(t,y(x))p(x,t)dxdt
L(t,y(x))常用平方損失函數(shù)–L(t,y(x))=[y(x)?t]2L(t,y(x))=[y(x)-t]^2L(t,y(x))=[y(x)?t]2。我們的目標是選擇合適的y(x)來使E[L]\mathbb{E}[L]E[L]最小化。形式變分法求解y(x)(不會求):
δE[L]δy(x)=2∫{y(x)?t}p(x,t)dt=0\frac{\delta\mathbb{E}[L]}{\delta y(x)}=2\int\{y(x)-t\}p(x,t)dt = 0δy(x)δE[L]?=2∫{y(x)?t}p(x,t)dt=0
使用概率的加和規(guī)則和乘積規(guī)則有(對上式子進行移項和相除操作得到):
y(x)=∫tp(x,t)dtp(x)=∫tp(t∣x)dt=Et[t∣x](1.89)y(x)=\frac{\int tp(x,t)dt}{p(x)}=\int tp(t|x)dt=\mathbb{E}_t[t|x]\tag{1.89}y(x)=p(x)∫tp(x,t)dt?=∫tp(t∣x)dt=Et?[t∣x](1.89)
Et[t∣x]\mathbb{E}_t[t|x]Et?[t∣x]符號迷惑,理解成 t 在給定x條件下的期望會更容易理解。Ep(t∣x)[t]\mathbb{E}_{p(t|x)}[t]Ep(t∣x)?[t]
所以y(x)最優(yōu)解就是t的條件期望。
同樣有三種方法來解決回歸問題:
閔可夫斯基損失函數(shù)–平方損失函數(shù)的推廣
E[L]q=∫∫∣y(x)?t∣qp(x,t)dxdt\mathbb{E}[L]_q=\int\int|y(x)-t|^qp(x,t)dxdtE[L]q?=∫∫∣y(x)?t∣qp(x,t)dxdt
1.6 信息論
信息量的概念:觀察到一個離散型隨機變量時,我們能獲得多少信息?直覺上,低概率事件具有高信息量。尋找一個表達信息量的函數(shù)h(?)h(\cdot)h(?)是p(x)的遞減函數(shù)。且如果有兩個不相關的事件x,y,觀察到兩個事件同時發(fā)生的信息量應該等于兩件事各自發(fā)生時的概率,即h(x,y)=h(x)+h(y)h(x,y)=h(x)+h(y)h(x,y)=h(x)+h(y),兩件不相關的事是統(tǒng)計獨立的,因此有p(x,y)=p(x)p(y)p(x,y)=p(x)p(y)p(x,y)=p(x)p(y)。容易得出h(x)與p(x)是對數(shù)關系。因此有(單個隨機變量的信息量):
h(x)=?log?2p(x)h(x)=-\log_2p(x)h(x)=?log2?p(x)
熵:傳輸隨機變量x的平均信息量為:
H[x]=?∑xp(x)log2p(x)H[x]=-\sum_xp(x)log_2p(x)H[x]=?x∑?p(x)log2?p(x)
非均勻分布的熵比均勻分布的熵要小。
無噪聲編碼定理:熵是傳輸一個隨機變量狀態(tài)值所需比特位的下界。
熵起源于物理學:N個物體放到若干個箱子中,所有的方案數(shù)構成乘數(shù)。乘數(shù)通過合適參數(shù)縮放對數(shù)乘數(shù),且當N?>∞N->\inftyN?>∞時,就可以得到自然對數(shù)熵的定義。
離散型隨機變量的熵特性:
熵是非負數(shù);熵的最小值為0;利用概率歸一化約束,使用拉格朗日乘子法找到熵的最大值為所有的值都相等,且等于1M\frac{1}{M}M1?時,熵值最大。M為xix_ixi?的狀態(tài)總數(shù)。
熵的概念從離散型隨機變量擴展到連續(xù)型隨機變量:將連續(xù)型隨機變量離散化,然后讓Δ?>0\Delta->0Δ?>0,得到微分熵的概念:
?∫p(x)ln?p(x)dx-\int p(x)\ln p(x) dx?∫p(x)lnp(x)dx
熵的離散形式和連續(xù)形式相差一個ln?Δ\ln \DeltalnΔ在Δ?>0\Delta->0Δ?>0的情況下是發(fā)散的。反映一個重要的事實:具體化一個連續(xù)型隨機變量需要大量的比特位。
連續(xù)型隨機變量的熵特性:
最大化微分熵的分布是高斯分布,最大的熵值還由分布的方差決定。隨著方差的增大而增大(越平越大的趨勢還是在的)
H[x]=12{1+ln?(2πσ2)}H[x]=\frac{1}{2}\{1+\ln(2\pi\sigma ^2)\}H[x]=21?{1+ln(2πσ2)}
微分熵可以為負數(shù)。
條件熵:
**KL散度:**目標分布p(x)p(x)p(x),近似分布q(x∣θ)q(x|\theta)q(x∣θ)–平均附加信息量,比原來的信息量多出來的信息量。KL散度不是一個對稱量。
KL(p∣∣q)=?∫p(x)ln?{q(x)p(x)}dxKL(p||q)=-\int p(x)\ln\left\{\frac{q(x)}{p(x)}\right\}dxKL(p∣∣q)=?∫p(x)ln{p(x)q(x)?}dx
**凸函數(shù):**弦在函數(shù)圖像上,對應的函數(shù)的二階導數(shù)為正。
f(λa+(1?λ)b)<=λf(a)+(1?λ)f(b)f(\lambda a + (1-\lambda)b) <= \lambda f(a) + (1-\lambda)f(b)f(λa+(1?λ)b)<=λf(a)+(1?λ)f(b)
**凹函數(shù):**弦在函數(shù)圖像的下方,對應的二階導數(shù)為負數(shù)
f(x)=?f(x)f(x)=-f(x)f(x)=?f(x)
利用Jensen 不等式+?ln?x-\ln x?lnx函數(shù)是凸函數(shù) 證明了KL散度非負數(shù)。因此可以將KL散度看作兩分布之間不相似程度的度量。(解釋性說明)
最大似然等價與最小化**目標分布p(x)p(x)p(x),近似分布q(x∣θ)q(x|\theta)q(x∣θ)之間的KL散度。
**互信息:**獲知一個隨機變量的值后另一個隨機變量不確定度減少的量。
I(x,y)=H(x)?H(x∣y)=H(y)?H(y∣x)I(x,y) = H(x)-H(x|y)=H(y)-H(y|x)I(x,y)=H(x)?H(x∣y)=H(y)?H(y∣x)
關鍵概念:
誤差函數(shù)(error function)
泛化能力(generalization)
特征抽取(feature extract)
預處理(pre-processed)
模型選擇(model selection)
模型對比(model comparison)
正則化(regularization)
權值衰減(weight decay)
收縮(shrinkage)
加和規(guī)則(sum rule)
乘積規(guī)則(product relu)
總結
以上是生活随笔為你收集整理的PRML(2)--绪论(下)模型选择、纬度灾难、决策论、信息论的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Mysql服务器线上配置主从同步
- 下一篇: C++:23 再议const的用法(下)