當前位置：首頁 > 编程资源 > 编程问答 >内容正文

编程问答

评估方法（交叉验证法、自助法、留出法）

發布時間：2023/12/14 编程问答 35 豆豆

生活随笔收集整理的這篇文章主要介紹了评估方法（交叉验证法、自助法、留出法）小編覺得挺不錯的,現在分享給大家,幫大家做個參考.

文章目錄

留出法 hold-out
交叉驗證法 cross validation
- k折交叉驗證
- 留一法 leave-one-out cross validation
自助法 bootstrapping

留出法 hold-out

留出法直接將數據集D劃分為兩個互斥的部分，其中一部分作為訓練集S，另一部分用作測試集T。通常訓練集和測試集的比例為70%：30%。同時，訓練集測試集的劃分有兩個注意事項：

盡可能保持數據分布的一致性。避免因數據劃分過程引入的額外偏差而對最終結果產生影響。在分類任務中，保留類別比例的采樣方法稱為“分層采樣”（stratified sampling）。
采用若干次隨機劃分避免單次使用留出法的不穩定性。

交叉驗證法 cross validation

k折交叉驗證

交叉驗證法先將數據集D劃分為k個大小相似的互斥子集，每次采用k?1個子集的并集作為訓練集，剩下的那個子集作為測試集。進行k次訓練和測試，最終返回k個測試結果的均值。又稱為“k折交叉驗證”（k-fold cross validation）。

留一法 leave-one-out cross validation

留一法是k折交叉驗證k=m（m為樣本數）時候的特殊情況。即每次只留下一個樣本做測試集，其它樣本做訓練集，需要訓練k次，測試k次。留一法計算最繁瑣，但樣本利用率最高。因為計算開銷較大，所以適合于小樣本的情況。

優點：樣本利用率高。
缺點：計算繁瑣。

自助法 bootstrapping

自助法以自助采樣為基礎（有放回采樣）。每次隨機從D（樣本數為m）中挑選一個樣本，放入D′中，然后將樣本放回D中，重復m次之后，得到了包含m個樣本的數據集。
樣本在m次采樣中始終不被采到的概率是 $(1?1m)m(1-\frac{1}{m})^{m}$ ，取極限得到 $limm→∞=(1?1m)m=1e=0.368lim_{m\rightarrow \infty }=(1-\frac{1}{m})^{m}=\frac{1}{e}=0.368$ 。即D約有36.8%的樣本未出現在D′中。于是將D′用作訓練集，D\D′用作測試集。這樣，仍然使用m個訓練樣本，但約有1/3未出現在訓練集中的樣本被用作測試集。

優點：自助法在數據集較小、難以有效劃分訓練/測試集時很有用。
缺點：自助法改變了初始數據集的分布，這會引入估計偏差。

參考：
https://blog.csdn.net/pxhdky/article/details/85206705

總結

以上是生活随笔為你收集整理的评估方法（交叉验证法、自助法、留出法）的全部內容，希望文章能夠幫你解決所遇到的問題。

如果覺得生活随笔網站內容還不錯，歡迎將生活随笔推薦給好友。

方法

上一篇： php清空session值_php注销s
下一篇：拉斯韦加斯夜景走马观花