交差验证
交叉驗(yàn)證(Cross-Validation)一般要滿足:
1)訓(xùn)練集的比例要足夠多,一般大于一半
2)訓(xùn)練集和測(cè)試集要均勻抽樣
1、訓(xùn)練數(shù)據(jù)集,交叉驗(yàn)證數(shù)據(jù)集,測(cè)試數(shù)據(jù)集的作用
參考:http://blog.csdn.net/wu_nan_nan/article/details/70169836
在Andrew Ng的機(jī)器學(xué)習(xí)教程里,會(huì)將給定的數(shù)據(jù)集分為三部分:訓(xùn)練數(shù)據(jù)集(training set)、交叉驗(yàn)證數(shù)據(jù)集(cross validation set)、測(cè)試數(shù)據(jù)集(test set)。三者分別占總數(shù)據(jù)集的60%、20%、20%。
那么這些數(shù)據(jù)集分別是什么作用呢?
假設(shè)我們訓(xùn)練一個(gè)數(shù)據(jù)集,有下面10中模型可以選擇:
我們想知道兩件事:
1)這10中模型中哪種最好(決定多項(xiàng)式的階數(shù)d);
2)最好的模型的θ參數(shù)是什么。
為此,我們需要,
使用訓(xùn)練數(shù)據(jù)集分別訓(xùn)練這10個(gè)模型;
用訓(xùn)練好的這10個(gè)模型,分別處理交叉驗(yàn)證數(shù)據(jù)集,統(tǒng)計(jì)它們的誤差,取誤差最小的模型為最終模型(這步就叫做Model Selection)。
用測(cè)試數(shù)據(jù)集測(cè)試其準(zhǔn)確性。
這里有個(gè)問題要回答:為什么不直接使用測(cè)試數(shù)據(jù)集(test set)來(lái)執(zhí)行上面的第2步?
答:如果數(shù)據(jù)集只分成訓(xùn)練數(shù)據(jù)集(training set)和測(cè)試數(shù)據(jù)集(test set),且訓(xùn)練數(shù)據(jù)集用于訓(xùn)練θ,測(cè)試數(shù)據(jù)集用于選擇模型,那么就缺少能夠公平的評(píng)判最終模型優(yōu)劣的數(shù)據(jù)集,因?yàn)樽罱K的模型就是根據(jù)訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集訓(xùn)練得到的,肯定在這兩個(gè)數(shù)據(jù)集上表現(xiàn)良好,但不一定在其它數(shù)據(jù)集上也如此。
但是,當(dāng)樣本總量少的時(shí)候,上面的劃分就不合適了。常用的是留少部分做測(cè)試集。然后用以下方法進(jìn)行交叉(cv)驗(yàn)證
2、三大CV的方法
參考:http://blog.sina.com.cn/s/blog_688077cf0100zqpj.html
1).Hold-Out Method
方法:將原始數(shù)據(jù)隨機(jī)分為兩組,一組做為訓(xùn)練集,一組做為驗(yàn)證集,利用訓(xùn)練集訓(xùn)練分類器,然后利用驗(yàn)證集驗(yàn)證模型,記錄最后的分類準(zhǔn)確率為此Hold-OutMethod下分類器的性能指標(biāo).。Hold-OutMethod相對(duì)于K-fold Cross Validation 又稱Double cross-validation ,或相對(duì)K-CV稱 2-fold cross-validation(2-CV)
優(yōu)點(diǎn):好處的處理簡(jiǎn)單,只需隨機(jī)把原始數(shù)據(jù)分為兩組即可
缺點(diǎn):嚴(yán)格意義來(lái)說Hold-Out Method并不能算是CV,因?yàn)檫@種方法沒有達(dá)到交叉的思想,由于是隨機(jī)的將原始數(shù)據(jù)分組,所以最后驗(yàn)證集分類準(zhǔn)確率的高低與原始數(shù)據(jù)的分組有很大的關(guān)系,所以這種方法得到的結(jié)果其實(shí)并不具有說服性.(主要原因是 訓(xùn)練集樣本數(shù)太少,通常不足以代表母體樣本的分布,導(dǎo)致 test 階段辨識(shí)率容易出現(xiàn)明顯落差。此外,2-CV 中一分為二的分子集方法的變異度大,往往無(wú)法達(dá)到「實(shí)驗(yàn)過程必須可以被復(fù)制」的要求。)
2).K-fold Cross Validation(記為K-CV)
參考:http://sofasofa.io/forum_main_post.php?postid=1000354&
一般來(lái)說,交叉驗(yàn)證會(huì)特地說明是用的多少fold。中文一般翻譯為折。
一個(gè)k-fold cross validation是把訓(xùn)練集隨機(jī)的分成等數(shù)量的k份,每一份數(shù)據(jù)集輪流當(dāng)驗(yàn)證集,剩下的k-1的數(shù)據(jù)集當(dāng)訓(xùn)練集。因?yàn)橐还灿衚個(gè)數(shù)據(jù)集,所以我們就有可以驗(yàn)證k次。我們把這k次的預(yù)測(cè)精度的平均值當(dāng)作模型的預(yù)測(cè)精度。
K一般大于等于2,實(shí)際操作時(shí)一般從3開始取,只有在原始數(shù)據(jù)集合數(shù)據(jù)量小的時(shí)候才會(huì)嘗試取2. 而K-CV 的實(shí)驗(yàn)共需要建立 k 個(gè)models,并計(jì)算 k 次 test sets 的平均辨識(shí)率。在實(shí)作上,k 要夠大才能使各回合中的 訓(xùn)練樣本數(shù)夠多,一般而言 k=10 (作為一個(gè)經(jīng)驗(yàn)參數(shù))算是相當(dāng)足夠了。
下圖就是一個(gè)4-fold cross validation。我們先把數(shù)據(jù)隨機(jī)分成四等份(如果不能被k整除,我們就大概近似k等份)。
下面進(jìn)行交叉驗(yàn)證。首先是把第1個(gè)數(shù)據(jù)集當(dāng)作測(cè)試集,用2,3,4當(dāng)作訓(xùn)練集來(lái)訓(xùn)練模型,再用訓(xùn)練好的模型來(lái)預(yù)測(cè)數(shù)據(jù)集1,對(duì)比其真實(shí)值,得到了一個(gè)預(yù)測(cè)精度。然后再把數(shù)據(jù)集2當(dāng)作測(cè)試集,用1,3,4訓(xùn)練出一個(gè)新的模型,在數(shù)據(jù)集2上測(cè)試,又得到一個(gè)預(yù)測(cè)精度。依此類推,我們就可以得到4個(gè)預(yù)測(cè)精度。將它們?nèi)∑骄?#xff0c;就得到了模型的4-fold cross validation的預(yù)測(cè)精度。
優(yōu)點(diǎn):K-CV可以有效的避免過學(xué)習(xí)以及欠學(xué)習(xí)狀態(tài)的發(fā)生,最后得到的結(jié)果也比較具有說服性.
缺點(diǎn):K值選取上
3).Leave-One-Out Cross Validation(記為L(zhǎng)OO-CV)
方法:如果設(shè)原始數(shù)據(jù)有N個(gè)樣本,那么LOO-CV就是N-CV,即每個(gè)樣本單獨(dú)作為驗(yàn)證集,其余的N-1個(gè)樣本作為訓(xùn)練集,所以LOO-CV會(huì)得到N個(gè)模型,用這N個(gè)模型最終的驗(yàn)證集的分類準(zhǔn)確率的平均數(shù)作為此下LOO-CV分類器的性能指標(biāo).
優(yōu)點(diǎn):相比于前面的K-CV,LOO-CV有兩個(gè)明顯的優(yōu)點(diǎn):a.每一回合中幾乎所有的樣本皆用于訓(xùn)練模型,因此最接近原始樣本的分布,這樣評(píng)估所得的結(jié)果比較可靠。 b. 實(shí)驗(yàn)過程中沒有隨機(jī)因素會(huì)影響實(shí)驗(yàn)數(shù)據(jù),確保實(shí)驗(yàn)過程是可以被復(fù)制的.
缺點(diǎn):計(jì)算成本高,因?yàn)樾枰⒌哪P蛿?shù)量與原始數(shù)據(jù)樣本數(shù)量相同,當(dāng)原始數(shù)據(jù)樣本數(shù)量相當(dāng)多時(shí),LOO-CV在實(shí)作上便有困難幾乎就是不顯示,除非每次訓(xùn)練分類器得到模型的速度很快,或是可以用并行化計(jì)算減少計(jì)算所需的時(shí)間.
在模式識(shí)別與機(jī)器學(xué)習(xí)的相關(guān)研究中,經(jīng)常會(huì)將 數(shù)據(jù)集分為 訓(xùn)練集與測(cè)試集 這兩個(gè)子集,前者用以建立 模式,后者則用來(lái)評(píng)估該 模式對(duì)未知樣本進(jìn)行預(yù)測(cè)時(shí)的精確度,正規(guī)的說法是 generalization ability(泛化能力)
創(chuàng)作挑戰(zhàn)賽新人創(chuàng)作獎(jiǎng)勵(lì)來(lái)咯,堅(jiān)持創(chuàng)作打卡瓜分現(xiàn)金大獎(jiǎng)總結(jié)
- 上一篇: 这家硬核企业喊话“流浪地球”:尽管想象
- 下一篇: Netflix 真人剧《海贼王》首张海报