Pandas按行值采样dataframe

在本文中，我们将介绍如何使用Pandas按行值采样dataframe。通过采样，我们可以随机选择部分数据来进行分析和处理，从而提高我们的数据分析效率。

在Pandas中使用sample()方法进行采样

Pandas中的sample()方法可以直接对dataframe进行采样。该方法可以接受多个参数，包括n、frac、replace、weights等参数。

n: 采样行数，可以为整数或占比。
frac: 采样占比，取值范围为(0, 1]。
replace: 是否可重复采样，默认为False。
weights: 样本权重，必须与dataframe的行数相同。

以下是一个示例，我们从一个dataframe中随机选择10%的数据进行采样：

import pandas as pd
import numpy as np

# 创建一个dataframe
df = pd.DataFrame(np.random.randint(0,100,size=(100, 4)), columns=list('ABCD'))

# 采样10%
sampled_df = df.sample(frac=0.1)

print(f"采样前的行数：{len(df)}")
print(f"采样后的行数：{len(sampled_df)}")

输出：

采样前的行数：100
采样后的行数：10

在本示例中，我们从原始dataframe中随机选择10%的数据，生成了一个新的sampled_df。

在实际应用中，我们可能需要根据某些条件进行采样，比如只选择某一列中满足条件的行。下面我们将介绍如何在Pandas中使用布尔条件进行采样。

使用布尔条件进行采样

在Pandas中，我们可以直接使用布尔条件对dataframe进行筛选和采样。下面是一个示例，我们从一个dataframe中选择”sex”列为”female”的所有行。

import pandas as pd

# 创建一个dataframe
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'age': [25, 30, 22, 35, 18],
    'sex': ['female', 'male', 'female', 'male', 'female'],
    'city': ['Beijing', 'Shanghai', 'Beijing', 'Shanghai', 'Guangzhou']
}

df = pd.DataFrame(data)

# 选择"sex"列为"female"的所有行
female_df = df[df['sex'] == 'female']

print(f"原始dataframe：\n{df}")
print(f"筛选后的dataframe：\n{female_df}")

输出：

原始dataframe：
      name  age     sex       city
0    Alice   25  female    Beijing
1      Bob   30    male   Shanghai
2  Charlie   22  female    Beijing
3    David   35    male   Shanghai
4      Eva   18  female  Guangzhou

筛选后的dataframe：
      name  age     sex       city
0    Alice   25  female    Beijing
2  Charlie   22  female    Beijing
4      Eva   18  female  Guangzhou

在本示例中，我们使用了df[‘sex’] ‘female’这个布尔条件对dataframe进行了筛选和采样，得到了一个新的female_df。

使用query()方法进行复杂条件筛选

在实际应用中，我们可能需要根据复杂的条件进行筛选。此时，我们可以使用query()方法对dataframe进行筛选。query()方法可以接受一个字符串类型的条件表达式，例如 “A > B”，”A 1 and B < 3″ 等。

下面是一个示例，我们从一个dataframe中选择”age”列大于30并且”sex”列为”male”的所有行。

import pandas as pd

# 创建一个dataframe
data = {
    'name': ['Alice', 'Bob','Charlie', 'David', 'Eva'],
    'age': [25, 30, 22, 35, 18],
    'sex': ['female', 'male', 'female', 'male', 'female'],
    'city': ['Beijing', 'Shanghai', 'Beijing', 'Shanghai', 'Guangzhou']
}

df = pd.DataFrame(data)

# 选择"age"列大于30并且"sex"列为"male"的所有行
selected_df = df.query("age > 30 & sex == 'male'")

print(f"原始dataframe：\n{df}")
print(f"筛选后的dataframe：\n{selected_df}")

输出：

原始dataframe：
      name  age     sex       city
0    Alice   25  female    Beijing
1      Bob   30    male   Shanghai
2  Charlie   22  female    Beijing
3    David   35    male   Shanghai
4      Eva   18  female  Guangzhou

筛选后的dataframe：
    name  age   sex      city
3  David   35  male  Shanghai