如何划分机器学习的训练集和测试集
生活随笔
收集整理的這篇文章主要介紹了
如何划分机器学习的训练集和测试集
小編覺得挺不錯的,現在分享給大家,幫大家做個參考.
使用機器學習算法時,通常需要把數據分為訓練集和測試集,本文介紹R語言的三種實現方法,并通過示例進行學習。
使用R內置方法
依據sample函數生成指定概率的true和false的向量,然后利用該向量過濾數據集得到訓練集和測試集,語法如下:
# 設置隨機種子,使得示例可以重復 set.seed(1)# df是要分割的數據集 # 使用 70% 數據集作為訓練集,30% 作為測試集 sample <- sample(c(TRUE, FALSE), nrow(df), replace=TRUE, prob=c(0.7,0.3)) train <- df[sample, ] test <- df[!sample, ]下面示例把iris數據分為訓練集和測試集:
# 設置隨機種子,使得示例可以重復 set.seed(1)data(iris)# 使用 70% 數據集作為訓練集,30% 作為測試集 sample <- sample(c(TRUE, FALSE), nrow(iris), replace=TRUE, prob=c(0.7,0.3)) train <- iris[sample, ] test <- iris[!sample, ]dim(iris) # 150 5dim(train) # 106 5dim(test) # 44 5從輸出可以看到,總共150條記錄,訓練集大概包括 106 / 150 = 70.6% 。
使用caTools包
使用caTools包提供了sample.split函數,可以輕松進行數據分離。
subset函數返回滿足條件的向量、矩陣或數據幀的子集,subset(x, subset, ...) 其中subset參數指定過濾條件:
我們用這種方法對iris數據集進行劃分:
# 設置隨機種子,使得示例可以重復 data(iris) set.seed(2)# df是要分割的數據集 # 使用 70% 數據集作為訓練集,30% 作為測試集 sample <- sample.split(iris$Species, SplitRatio = 0.7)train <- subset(iris, sample == TRUE) test <- subset(iris, sample == FALSE)dim(iris) # 150 5dim(train) # 105 5dim(test) # 45 5運行結果與上面示例差不多,需要說明的是sample.split函數,其語法如下:sample.split( Y, SplitRatio = 2/3, group = NULL )
其中Y為x向量類型,因此需要隨意指定數據集的一列生成向量,SplitRatio有默認值。
使用dplyr包
下面我們來看看如何使用dplyr包實現同樣功能。
library(dplyr)# 設置隨機種子,使得示例可以重復 set.seed(1)df <- iris# 依據數據集總行數生成序號 df$id <- 1:nrow(df)# 使用 70% 數據集作為訓練集,30% 作為測試集 train <- df %>% dplyr::slice_sample(prop = 0.70)# 反向連接生成測試機 test <- dplyr::anti_join(df, train, by = 'id')dim(iris) # 150 5dim(train) # 105 5dim(test) # 45 5生成結果與上面一致,我們說明下slice_sample()函數,用于隨機選擇行,語法如下:
slice_sample(.data, ..., n, prop, weight_by = NULL, replace = FALSE)
- prop 用于指定概率
- n 指定數量
- replace 是否放回抽樣,默認不放回
總結
以上是生活随笔為你收集整理的如何划分机器学习的训练集和测试集的全部內容,希望文章能夠幫你解決所遇到的問題。
- 上一篇: Android集成腾讯X5WebView
- 下一篇: 随机微分方程学习笔记01 相对布朗运动的