Python分割数据的方法|极客教程

Python分割数据的方法

在数据处理和分析过程中，经常需要将数据集分割成训练集和测试集，以便用训练集训练模型，再用测试集验证模型的性能。Python提供了多种方法用于分割数据，下面将介绍几种常用的方法。

方法一：手动分割数据

最简单的方法是手动分割数据集，可以按照一定比例将数据分割成训练集和测试集。以下是一个示例代码：

import pandas as pd

# 读取数据集
data = pd.read_csv('data.csv')

# 手动分割数据
train_data = data.iloc[:800, :]
test_data = data.iloc[800:, :]

print("训练集样本数：", len(train_data))
print("测试集样本数：", len(test_data))

运行结果如下：

训练集样本数： 800
测试集样本数： 200

方法二：使用train_test_split函数

scikit-learn库中的train_test_split函数可以方便地将数据集分割成训练集和测试集。以下是一个示例代码：

from sklearn.model_selection import train_test_split
import pandas as pd

# 读取数据集
data = pd.read_csv('data.csv')

# 使用train_test_split函数分割数据
train_data, test_data = train_test_split(data, test_size=0.2, random_state=42)

print("训练集样本数：", len(train_data))
print("测试集样本数：", len(test_data))

运行结果如下：

训练集样本数： 800
测试集样本数： 200

方法三：使用numpy的random.permutation方法

numpy库中的random.permutation方法可以随机打乱数据集，再根据指定比例分割成训练集和测试集。以下是一个示例代码：

import numpy as np
import pandas as pd

# 读取数据集
data = pd.read_csv('data.csv')

# 随机打乱数据集
data_shuffled = data.reindex(np.random.permutation(data.index))

# 分割数据
train_data = data_shuffled.iloc[:800, :]
test_data = data_shuffled.iloc[800:, :]

print("训练集样本数：", len(train_data))
print("测试集样本数：", len(test_data))

运行结果如下：

训练集样本数： 800
测试集样本数： 200

以上就是几种常用的Python分割数据的方法，根据具体需求选择合适的方法进行数据分割。

Python分割数据的方法

Python分割数据的方法

方法一：手动分割数据

方法二：使用train_test_split函数

方法三：使用numpy的random.permutation方法

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

Python 精品教程

回顶部