pandas 分层抽样|极客教程

pandas 分层抽样

在数据分析中，有时候我们需要对数据进行抽样以获取一个代表性的样本。而在进行数据抽样时，分层抽样是一种常用的方法。分层抽样是指将总体按照一定的标准划分为若干个层或组，然后在每个层或组内进行简单随机抽样，最后将各层或组的样本合并成总体的一个样本。这种方法可以保证样本更具有代表性。

在Python的数据处理库pandas中，我们可以使用sample()方法来进行随机抽样。本文将详细介绍如何在pandas中进行分层抽样。

1. 分层抽样的原理

分层抽样的原理是将总体按照一定的特征分成多个层级，然后在每个层级内进行随机抽样，最后将各层级的样本合并成总体的一个样本。这样可以确保每个层级都有代表性的样本，从而保证整体数据的代表性。

在实际应用中，我们需要先确定分层的依据，例如按照某个列的取值来进行分层抽样。然后在每个分层内使用随机抽样的方式抽取样本。

2. pandas中的分层抽样

在pandas中，我们可以使用sample()方法进行抽样。sample()方法可以接收一个frac参数，用于指定抽样的比例，还可以接收一个replace参数，用于指定是否可以重复抽样。

下面我们来看一个示例，假设我们有一个包含用户ID、性别和年龄的数据框，我们要对性别进行分层抽样，抽取其中一定比例的样本。

import pandas as pd

# 创建一个包含用户ID、性别和年龄的数据框
data = {
    'ID': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'Gender': ['M', 'F', 'M', 'M', 'F', 'F', 'M', 'F', 'M', 'F'],
    'Age': [20, 25, 30, 35, 40, 45, 50, 55, 60, 65]
}

df = pd.DataFrame(data)

# 对性别进行分层抽样，抽取其中50%的样本
sampled_data = df.groupby('Gender').apply(lambda x: x.sample(frac=0.5))

print(sampled_data)

以上代码中，我们首先创建了一个包含用户ID、性别和年龄的数据框df。然后使用groupby()方法按照性别进行分组，并在每个分组内使用sample()方法抽取其中50%的样本，最后将结果存储在sampled_data中。