评估方法(交叉验证法、自助法、留出法)
文章目錄
- 留出法 hold-out
- 交叉驗證法 cross validation
- k折交叉驗證
- 留一法 leave-one-out cross validation
- 自助法 bootstrapping
留出法 hold-out
留出法直接將數據集D劃分為兩個互斥的部分,其中一部分作為訓練集S,另一部分用作測試集T。通常訓練集和測試集的比例為70%:30%。同時,訓練集測試集的劃分有兩個注意事項:
- 盡可能保持數據分布的一致性。避免因數據劃分過程引入的額外偏差而對最終結果產生影響。在分類任務中,保留類別比例的采樣方法稱為“分層采樣”(stratified sampling)。
- 采用若干次隨機劃分避免單次使用留出法的不穩定性。
交叉驗證法 cross validation
k折交叉驗證
交叉驗證法先將數據集D劃分為k個大小相似的互斥子集,每次采用k?1個子集的并集作為訓練集,剩下的那個子集作為測試集。進行k次訓練和測試,最終返回k個測試結果的均值。又稱為“k折交叉驗證”(k-fold cross validation)。
留一法 leave-one-out cross validation
留一法是k折交叉驗證k=m(m為樣本數)時候的特殊情況。即每次只留下一個樣本做測試集,其它樣本做訓練集,需要訓練k次,測試k次。留一法計算最繁瑣,但樣本利用率最高。因為計算開銷較大,所以適合于小樣本的情況。
- 優點:樣本利用率高。
- 缺點:計算繁瑣。
自助法 bootstrapping
自助法以自助采樣為基礎(有放回采樣)。每次隨機從D(樣本數為m)中挑選一個樣本,放入D′中,然后將樣本放回D中,重復m次之后,得到了包含m個樣本的數據集。
樣本在m次采樣中始終不被采到的概率是(1?1m)m(1-\frac{1}{m})^{m}(1?m1?)m,取極限得到limm→∞=(1?1m)m=1e=0.368lim_{m\rightarrow \infty }=(1-\frac{1}{m})^{m}=\frac{1}{e}=0.368limm→∞?=(1?m1?)m=e1?=0.368。即D約有36.8%的樣本未出現在D′中。于是將D′用作訓練集,D\D′用作測試集。這樣,仍然使用m個訓練樣本,但約有1/3未出現在訓練集中的樣本被用作測試集。
- 優點:自助法在數據集較小、難以有效劃分訓練/測試集時很有用。
- 缺點:自助法改變了初始數據集的分布,這會引入估計偏差。
參考:
https://blog.csdn.net/pxhdky/article/details/85206705
總結
以上是生活随笔為你收集整理的评估方法(交叉验证法、自助法、留出法)的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: php清空session值_php注销s
- 下一篇: 拉斯韦加斯夜景走马观花