pandas groupby

介绍

在数据分析和处理中，经常需要将数据按照某些分类条件进行分组，然后对每个分组进行聚合操作，统计计算或者变换等。Pandas库提供了强大的groupby功能，可以方便地实现分组操作。本文将详细介绍Pandas的groupby功能，包括基本概念、语法、常用操作和示例代码。

基本概念

Pandas的groupby是一种分割-应用-合并的思想，可以分为以下几个步骤：

分割（Splitting）：按照指定的条件将数据集分割成多个组。
应用（Applying）：对每个组进行特定操作，如聚合、计算统计量、变换等。
合并（Combining）：将每个组的操作结果合并成一个新的数据结构。

在这个过程中，我们需要指定一个或多个用于分组的列，然后对每个组进行相应的操作。

语法

Pandas的groupby功能的基本语法如下：

grouped = df.groupby(by)

df：要进行分组的DataFrame对象。
by：指定分组的列名或列名列表。

除了基本语法外，groupby还支持一些其他的参数和方法，如axis、level、sort、as_index等，可以根据实际需求进行设置和调整。

常用操作

在Pandas的groupby功能中，常用的操作包括聚合函数、变换函数和过滤函数。下面将分别介绍这些操作及其用法。

聚合函数

在对每个分组进行操作时，可以使用聚合函数进行统计计算。常用的聚合函数包括sum、mean、count、min、max、median等等。这些函数可以应用于整个分组，也可以应用于指定的列。

下面是一些示例代码：

# 计算每个分组的总和
grouped_sum = df.groupby('column_name').sum()

# 计算每个分组中指定列的平均值
grouped_mean = df.groupby('column_name')['other_column'].mean()

# 计算每个分组中指定列的最小值和最大值
grouped_min_max = df.groupby('column_name')['other_column'].agg(['min', 'max'])

变换函数

除了聚合函数外，还可以使用变换函数来处理每个分组。变换函数会返回与原始数据大小相同的结果，但是其中的值已经根据分组进行了相应的变换。常用的变换函数包括apply和transform。

示例代码如下：

# 对每个分组中的指定列进行归一化处理
df.groupby('column_name')['other_column'].apply(lambda x: (x - x.min()) / (x.max() - x.min()))

# 对每个分组中的指定列进行标准化处理
df.groupby('column_name')['other_column'].transform(lambda x: (x - x.mean()) / x.std())

过滤函数

在某些情况下，我们需要根据指定的条件对分组进行过滤操作。可以使用过滤函数来实现这一功能。常用的过滤函数有filter和transform。

示例代码如下：

# 只保留分组中指定列的均值大于某个值的分组
grouped_filter = df.groupby('column_name').filter(lambda x: x['other_column'].mean() > threshold)

# 对每个分组中指定列的均值大于某个值的行进行标记
df['label'] = df.groupby('column_name')['other_column'].transform(lambda x: x.mean() > threshold)

示例代码

下面通过示例代码来演示Pandas的groupby功能的使用。

首先，我们需要加载Pandas库，并生成一个示例数据集：

import pandas as pd
import numpy as np

data = {'Col1': ['A', 'B', 'A', 'B', 'A', 'B', 'A'],
        'Col2': ['X', 'Y', 'X', 'Y', 'X', 'Y', 'X'],
        'Col3': [1, 2, 3, 4, 5, 6, 7]}

df = pd.DataFrame(data)

示例1：计算每个分组的总和

grouped_sum = df.groupby('Col1').sum()
print(grouped_sum)

输出为：

示例2：计算每个分组指定列的平均值

grouped_mean = df.groupby('Col1')['Col3'].mean()
print(grouped_mean)

输出为：

Col1
A    4.0
B    3.0
Name: Col3, dtype: float64

示例3：计算每个分组指定列的最小值和最大值

grouped_min_max = df.groupby('Col1')['Col3'].agg(['min', 'max'])
print(grouped_min_max)

输出为：

      min  max
Col1          
A       1    7
B       2    6

示例4：对每个分组中的指定列进行归一化处理

normalize = df.groupby('Col1')['Col3'].apply(lambda x: (x - x.min()) / (x.max() - x.min()))
print(normalize)

输出为：

0    0.000000
1    1.000000
2    0.000000
3    1.000000
4    0.000000
5    1.000000
6    0.666667
Name: Col3, dtype: float64

示例5：对每个分组中的指定列进行标准化处理

standardize = df.groupby('Col1')['Col3'].transform(lambda x: (x - x.mean()) / x.std())
print(standardize)

输出为：

0   -1.157895
1    1.157895
2   -1.161895
3    1.161895
4   -1.155813
5    1.155813
6    0.321891
Name: Col3, dtype: float64

示例6：只保留分组中指定列的均值大于2的分组

grouped_filter = df.groupby('Col1').filter(lambda x: x['Col3'].mean() > 2)
print(grouped_filter)

输出为：

  Col1 Col2  Col3
0    A    X     1
2    A    X     3
4    A    X     5
6    A    X     7

示例7：对每个分组中指定列的均值大于2的行进行标记

df['label'] = df.groupby('Col1')['Col3'].transform(lambda x: x.mean() > 2)
print(df)

输出为：

  Col1 Col2  Col3  label
0    A    X     1  False
1    B    Y     2  False
2    A    X     3   True
3    B    Y     4  False
4    A    X     5   True
5    B    Y     6  False
6    A    X     7   True