训练集和测试集 — 模型评估
模型評(píng)估
訓(xùn)練集和測(cè)試集
訓(xùn)練集就是訓(xùn)練模型的樣本,測(cè)試集就是在我們訓(xùn)練好一個(gè)模型后,需要去評(píng)價(jià)這個(gè)模型的好壞。最直接的方法就是拿著這個(gè)模型去做實(shí)際的判斷。
例如,垃圾郵件過(guò)濾,就看看能否把垃圾郵件都篩選出來(lái),如果沒(méi)有識(shí)別出垃圾郵件,或者把正常的郵件錯(cuò)認(rèn)為是垃圾郵件而過(guò)濾掉,那么都是出現(xiàn)了誤判,或者說(shuō)是錯(cuò)誤。出現(xiàn)錯(cuò)誤過(guò)多的模型顯然就不是好的模型。
模型評(píng)估
誤差(error)
學(xué)習(xí)器的預(yù)測(cè)輸出和樣本的真實(shí)標(biāo)記之間的差異稱(chēng)為誤差。
訓(xùn)練誤差(traning error)
在訓(xùn)練集上的誤差。
泛化誤差(generalization error)
在新樣本上的誤差。
過(guò)擬合
在訓(xùn)練模型時(shí),如果一味地追求使訓(xùn)練誤差盡量達(dá)到最小,就有可能會(huì)出現(xiàn)一種現(xiàn)象(學(xué)習(xí)過(guò)度,在訓(xùn)練集上表現(xiàn)很好,在新樣本上泛化誤差很大)。
機(jī)器學(xué)習(xí)就是通過(guò)對(duì)樣本數(shù)據(jù)的學(xué)習(xí),希望盡可能學(xué)習(xí)到適應(yīng)于所有潛在樣本的本質(zhì)特征和普遍規(guī)律,從而能夠?qū)ξ粗臄?shù)據(jù)進(jìn)行預(yù)測(cè)或者分類(lèi)。但是由于訓(xùn)練樣本的數(shù)量有限,如果學(xué)習(xí)器的學(xué)習(xí)能力過(guò)于強(qiáng)大,就會(huì)發(fā)生過(guò)度學(xué)習(xí),把訓(xùn)練樣本中特有的特性都當(dāng)成是所有樣本都必須具備的普遍特征學(xué)到了,導(dǎo)致泛化能力降低。
例如,設(shè)計(jì)一個(gè)識(shí)別樹(shù)葉的程序,希望它能夠認(rèn)識(shí)所有的樹(shù)葉,但是我們采集的用來(lái)訓(xùn)練模型的樹(shù)葉的樣本是有限的,假如在這些樹(shù)葉上面,恰好都有一些細(xì)微的劃痕或者斑點(diǎn),或者樹(shù)葉的邊緣恰好都是鋸齒形狀的,如果過(guò)度學(xué)習(xí),學(xué)習(xí)器就會(huì)學(xué)習(xí)到所有這些細(xì)微的特征。認(rèn)為必須具備這樣的特征才是樹(shù)葉。如果給它看一片完美的、沒(méi)有劃痕和斑點(diǎn)的樹(shù)葉,它就識(shí)別不出來(lái)。
在上述例子中,模型就好像是一個(gè)記憶能力超群的高手,它記住了訓(xùn)練集上所有樣本的屬性和標(biāo)簽,因此,在訓(xùn)練集上的正確率可以達(dá)到或者接近100%,但是,當(dāng)出現(xiàn)沒(méi)有見(jiàn)過(guò)的樣本時(shí),卻不具備舉一反三的能力,出現(xiàn)很多錯(cuò)誤。
欠擬合
和過(guò)擬合相對(duì)的是欠擬合,產(chǎn)生欠擬合的原因是學(xué)習(xí)器的學(xué)習(xí)能力低下,沒(méi)有學(xué)習(xí)到樣本中的通用的特征。例如:學(xué)習(xí)器無(wú)法學(xué)習(xí)到所有樹(shù)葉共同的特征。那么給它一片新的樹(shù)葉,它也識(shí)別不出來(lái),這就是欠擬合。
測(cè)試誤差
可以看出來(lái),我們希望模型在新的、沒(méi)有見(jiàn)過(guò)的數(shù)據(jù)上表現(xiàn)的很好,而不僅僅是在訓(xùn)練集上表現(xiàn)優(yōu)異,也就是說(shuō),在機(jī)器學(xué)習(xí)中,我們的目標(biāo)不僅僅是模型的訓(xùn)練誤差小,而更希望它的泛化誤差小。但是,新的樣本是無(wú)限多的,在實(shí)際中,我們不可能測(cè)試無(wú)限多樣本的數(shù)據(jù)集,因此,實(shí)際上是無(wú)法得到泛化誤差的。
為了評(píng)價(jià)模型在沒(méi)有見(jiàn)過(guò)的數(shù)據(jù)上的效果,我們就把數(shù)據(jù)樣本集劃分為訓(xùn)練集(training set)和測(cè)試集(testing set),首先使用訓(xùn)練集訓(xùn)練模型,訓(xùn)練完成之后,再在測(cè)試集上運(yùn)行模型,測(cè)試學(xué)習(xí)器對(duì)新樣本的預(yù)測(cè)或者判斷能力,使用這個(gè)測(cè)試集上的測(cè)試誤差來(lái)作為泛化誤差的近似,為了得到泛化性能強(qiáng)的模型,測(cè)試集中的樣本最好是沒(méi)有在訓(xùn)練集中出現(xiàn)過(guò)的。也就是說(shuō),測(cè)試集應(yīng)該盡可能和訓(xùn)練集是互斥的。
總結(jié)
以上是生活随笔為你收集整理的训练集和测试集 — 模型评估的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 【2021-12-17】css反爬+py
- 下一篇: OpenFOAM大涡模拟湍流模型之Sma