envi最大似然分类_闲谈最大后验概率估计(MAP estimate)amp;极大似然估计(MLE)和机器学习中的误差分类...
上一篇文章中提到了一個(gè)有趣的實(shí)驗(yàn),簡單來說就是1-100中有若干個(gè)數(shù)字是“正確的”,只告訴其中一部分“正確的”數(shù)字,去猜全部“正確的”數(shù)字。
為了嚴(yán)謹(jǐn)?shù)娜パ芯窟@個(gè)問題,我們需要將一些概念進(jìn)行抽象。首先,把提前告知的其中一部分“正確的”數(shù)字定義為樣本
,全部“正確的”數(shù)字定義為假設(shè) ,我們想要做的就是在給定樣本下找到最適合的假設(shè)。這里需要說明一點(diǎn),由以上定義容易發(fā)現(xiàn)
,但是為了一般性,暫時(shí)不做的假設(shè)。有了前面這些準(zhǔn)備,我們就可以給出likelihood的定義:
,即給定假設(shè)下樣本發(fā)生的概率。對于離散化的問題,如前面提到的那個(gè)實(shí)驗(yàn),公式還可進(jìn)一步寫成: , 為樣本數(shù)。為了引入極大似然估計(jì)這個(gè)概念,我們需要提前約定包含所有假設(shè) 的假設(shè)空間為。所以,極大似然估計(jì)(MLE)就是在
中找到一個(gè) 使得likelihood達(dá)到最大,公式寫成 。MIT教授Joshua Brett Tenenbaum稱之為size principle,它意味著模型會(huì)傾向于更簡單(在這里就是 所含元素更少)的假設(shè)。但是,這種結(jié)果在機(jī)器學(xué)習(xí)中卻不是令人滿意的。譬如說如果
,很明顯, 是 的MLE,但是實(shí)際上他是沒有意義的,因?yàn)樗痪哂蟹夯?#xff0c;即無法預(yù)測未知的數(shù)據(jù)。換句話說,它其實(shí)根本沒有進(jìn)行訓(xùn)練。因此,我們需要定義prior。仍然令
,我們可以做出很多假設(shè),譬如 ,或者 。可以發(fā)現(xiàn), 比 有更高的likelihood,但是我們不愿意接受 ,這是因?yàn)樵谖覀冃闹械募僭O(shè)空間中, 比 的可能性低的多。所以,prior的定義就是假設(shè)在假設(shè)空間的概率
。不過,這種定義實(shí)際上是很主觀的,譬如一個(gè)小孩和一個(gè)數(shù)學(xué)教授不僅假設(shè)空間不同,他們的prior也會(huì)不同。但是為了方便處理,我們一般令他們的假設(shè)空間相同,但是改變其中的prior。譬如說對于advance的假設(shè),小孩的prior就是0,數(shù)學(xué)教授的prior可能就會(huì)稍微高一些。有了likelihood和prior,我們可以去定義后驗(yàn)概率(posteriori probability)
。先給出公式: ,有些朋友會(huì)發(fā)現(xiàn)這其實(shí)就是貝葉斯公式。顧名思義,最大后驗(yàn)概率估計(jì)(MAP estimate)就是找到一個(gè)假設(shè) ,使得后驗(yàn)概率取到最大值。我們可以發(fā)現(xiàn),如果
是均勻分布,那么后驗(yàn)概率和likelihood是成正比的,這時(shí)的MLE就等價(jià)于MAP estimate。但是真實(shí)情況往往不是這樣,
的分布是多種多樣的,不過如果我們的樣本量N趨于無窮,我們?nèi)匀豢梢缘玫胶芎玫慕Y(jié)論,下面來證明這一點(diǎn)。由于
的分母是常數(shù),所以MAP estimate也可寫成如下公式: ,而 ,所以 是關(guān)于N線性上升的,而是常數(shù),若同除以 ,因?yàn)? 與 無關(guān),所以不會(huì)影響 ,但是 會(huì)趨于0當(dāng)趨于無窮。而 ,所以也就是說,當(dāng)我們有足夠多的樣本,prior的作用就可以忽略不計(jì)。在這種情況下,MAP estimate會(huì)收斂于MLE。最后想談一談?wù)`差分類
我們不可能會(huì)產(chǎn)生一個(gè)精確的模型,我們產(chǎn)生的模型往往是含有噪音的,這些噪音可能來自:
- 模型并不是真實(shí)數(shù)據(jù)產(chǎn)生的模型
- 采樣本身也是有噪音的
- 等等
我們也會(huì)非常關(guān)心:
- 這些噪音隨著采樣是以什么尺度下降的
- 隨著神經(jīng)元數(shù)目增加,我的模型可以把誤差下降到多小
- 訓(xùn)練誤差和測試誤差
- 應(yīng)該選擇什么優(yōu)化方式
- 等等
有很多很多的誤差,我們需要對誤差分類(error decomposition)
它衡量了我的模型能最好逼近真實(shí)模型到什么程度(譬如說用分片線性函數(shù)去擬合非線性函數(shù))。但是要注意,這種逼近是不計(jì)成本的,也就是說,在不計(jì)一切代價(jià)的情況下,如果目標(biāo)是
,我們可以最佳逼近到 。但實(shí)際上不計(jì)一切成本是不可能的。在八十年代末九十年代初,最杰出的結(jié)論就是universal approximation theorem(萬有逼近原理)。這個(gè)結(jié)論是說,即使只有一個(gè)隱藏層(只要夠?qū)?,都可以把神經(jīng)網(wǎng)絡(luò)擬合的很好。當(dāng)然,激活函數(shù)不可以是仿射函數(shù),要不然連最普通的XOR問題都解決不了。
2. 泛化誤差(Generalization error)
它衡量了我可以通過數(shù)據(jù)集得到的最好的模型
和的距離。泛化即推廣能力。舉個(gè)例子,給出一系列數(shù)據(jù)點(diǎn),我們可以找到一條函數(shù)將數(shù)據(jù)點(diǎn)擬合。那么這條函數(shù)在我沒有見過的數(shù)據(jù)點(diǎn)的預(yù)測能力和表現(xiàn)性能就叫做泛化能力。
泛化誤差是我們很關(guān)心的誤差,因?yàn)槔碚撋弦呀?jīng)證明了,
可以幾乎等于我們的目標(biāo)函數(shù),所以我們泛化誤差可以就認(rèn)為是與的誤差3. 優(yōu)化誤差(Optimization error)
它衡量了我可以通過數(shù)據(jù)集和某一種優(yōu)化算法得到的最好的模型
和的舉例距離。所以最終我們可以得到一個(gè)等式
,直觀圖如下:參考:
總結(jié)
以上是生活随笔為你收集整理的envi最大似然分类_闲谈最大后验概率估计(MAP estimate)amp;极大似然估计(MLE)和机器学习中的误差分类...的全部內(nèi)容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: 金钱是什么 金钱是货币吗
- 下一篇: 十二星座日期查询表 十二星座日期对照