R语言划分训练集和测试集|极客教程

R语言划分训练集和测试集

在机器学习中，为了评估模型的性能并防止过拟合，通常会将数据集划分为训练集和测试集。训练集用来训练模型，测试集用来评估模型的性能。在R语言中，我们可以使用一些包来帮助我们划分数据集，并在训练和测试集上建立模型。

使用`caTools`包划分数据集

caTools是一个R包，用于数据集的划分，其中包含了sample.split()函数，可以方便地将数据集划分为训练集和测试集。下面是一个示例代码：

# 安装caTools包
install.packages("caTools")

# 载入包
library(caTools)

# 创建示例数据集
data(iris)

# 划分数据集
set.seed(123)  # 设置随机种子，保证结果的可重复性
split <- sample.split(iris$Species, SplitRatio = 0.7)

# 划分训练集和测试集
train_data <- subset(iris, split == TRUE)
test_data <- subset(iris, split == FALSE)

# 查看训练集和测试集的行数
nrow(train_data)
nrow(test_data)

运行以上代码后，将会得到训练集和测试集的行数。在示例中，我们将鸢尾花数据集iris按照70:30的比例划分为训练集和测试集。

使用`caret`包划分数据集

caret包是在R中进行机器学习的常用工具包，其中提供了createDataPartition()函数用于数据集的划分。下面是一个示例代码：

# 安装caret包
install.packages("caret")

# 载入包
library(caret)

# 创建示例数据集
data(iris)

# 划分数据集
set.seed(123)  # 设置随机种子，保证结果的可重复性
index <- createDataPartition(y = iris$Species, p = 0.7, list = FALSE)

# 划分训练集和测试集
train_data <- iris[index, ]
test_data <- iris[-index, ]

# 查看训练集和测试集的行数
nrow(train_data)
nrow(test_data)

同样地，在以上示例中，我们使用caret包将鸢尾花数据集iris按照70:30的比例划分为训练集和测试集。

自定义函数划分数据集

在R中，我们也可以自定义函数来划分数据集。下面是一个示例代码：

# 创建自定义函数划分数据集
split_data <- function(data, ratio){
  # 随机排列数据
  shuffled_data <- data[sample(nrow(data)), ]

  # 计算划分索引
  train_size <- floor(ratio * nrow(data))

  # 划分数据集
  train_data <- shuffled_data[1:train_size, ]
  test_data <- shuffled_data[(train_size + 1):nrow(shuffled_data), ]

  # 返回训练集和测试集
  return(list(train = train_data, test = test_data))
}

# 划分数据集
result <- split_data(iris, 0.7)

# 查看训练集和测试集的行数
nrow(result $train) nrow(result$ test)

上述代码中，我们定义了一个split_data函数来划分数据集，并返回训练集和测试集。再次以鸢尾花数据集iris为例，按照70:30的比例划分为训练集和测试集。

在实际使用中，根据不同的数据集和需求，可以选择适合自己的方法来划分训练集和测试集。划分完数据集后，我们就可以在训练集上建立模型，并在测试集上评估模型的性能，从而提高机器学习模型的泛化能力。