Python 如何随机将数据划分为训练集和测试集

在本文中，我们将介绍如何使用Python将数据随机划分为训练集和测试集。数据的划分是机器学习和数据分析中常见的任务，其中训练集用于模型的训练和参数估计，而测试集用于模型的评估和性能测试。

阅读更多：Python 教程

什么是数据集划分？

数据集划分是将一个数据集分成两个或多个子集的过程。在机器学习中，常见的划分方法是将数据集划分为训练集和测试集。训练集用于训练模型的参数，而测试集用于评估模型在未见过的数据上的性能。

随机划分数据集的方法

随机划分数据集是一种常用的划分方法，它可以保证训练集和测试集中的样本分布是随机的，从而更好地反映真实世界中的数据分布。下面我们将介绍两种常见的随机划分方法。

方法一：手动随机划分

一种简单的方法是手动随机划分数据集。我们可以使用Python中的随机数生成函数来生成一个随机序列，然后根据这个序列将数据集划分为训练集和测试集。

下面是一个示例代码：

import random

data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
random.shuffle(data)

trainset = data[:int(0.8 * len(data))]
testset = data[int(0.8 * len(data)):]

print("训练集：", trainset)
print("测试集：", testset)

在上面的代码中，我们首先将数据集存储在列表中，然后使用random.shuffle函数来打乱数据集的顺序。接下来，我们根据指定比例将数据集分成训练集和测试集。在这个例子中，我们将数据集的80%作为训练集，20%作为测试集。

方法二：使用sklearn库

另一种更方便的方法是使用Python中的第三方库，例如scikit-learn（sklearn）。sklearn提供了一系列用于机器学习的工具和函数，包括数据集划分的函数。

下面是一个使用sklearn库的示例代码：

from sklearn.model_selection import train_test_split

data = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

trainset, testset = train_test_split(data, test_size=0.2, random_state=42)

print("训练集：", trainset)
print("测试集：", testset)