模型评估-留出法
對于一個機器學習問題,我們通常有數據集D(用于訓練模型),但我們還需要評估模型,因此不能把整個D用于訓練,因為拿訓練過的數據再去評估必然無效。那么最基本的方法就是留出法:
把D劃分為兩部分:訓練集S和測試集T,其中SUT=D,S∩T=Φ。
劃分時一般不宜隨機劃分,因為如果T中正好只取到某一種特殊類型數據,從而帶來了額外的誤差。此時處理方法要視具體情況而定,如當數據明顯的分為有限類時,可以采用分層抽樣方式選擇測試數據,保證數據分布比例的平衡。
大多情形下,難以得到合適的測試集,此時一般多次重復劃分-訓練-測試求誤差的步驟,取誤差的平均值。
留出法帶來一個無法避免的矛盾:
我們初始動機是“評估數據集D訓練出的模型”但是我們把數據集分開了,導致:
Ⅰ 若 S較大T較小,那么S訓練出的模型與D訓練的模型相似,但是T太少,評估結果偶然性大,不準確。
Ⅱ 若S較小T較大,那么S與D訓練出的模型差異較大,T的評估失去意義。
這種矛盾是無法避免的。常用做法是選擇1/5-1/3左右數據用于評估。
總結
- 上一篇: 箱体震荡
- 下一篇: Paper-----文献引用格式