Pandas 聚合

在本文中，我们将介绍Pandas中的聚合操作。Pandas的聚合操作用于对数据进行汇总和统计，能够对数据进行分组、计算每组的统计量，并将结果返回为一个数据结构。常用的聚合函数有count、sum、mean、median、max、min、variance、standard deviation等。

阅读更多：Pandas 教程

分组操作

在进行聚合操作前，需先进行分组操作。Pandas的分组操作可以对数据进行按列或按行的分组。其中groupby()方法用于按列分组，如下例所示：

import pandas as pd

data=pd.read_csv('sales.csv')
df=pd.DataFrame(data)

grouped = df.groupby('Region')

以上代码通过读取csv文件创建一个名为df的数据帧，对该数据帧按’Region’列进行分组，结果存储在grouped变量中。

此外，还可以通过多列进行分组，例如：

grouped = df.groupby(['Region', 'Country'])

常用聚合函数

Pandas中常用的聚合函数有count、sum、mean、median、max、min、variance、standard deviation等。

计数

count()函数用于计算每组数据的数量，如以下代码所示：

grouped.count()

求和

sum()函数用于对每组数据进行求和计算，如以下代码所示：

grouped.sum()

平均值

mean()函数用于计算每组数据的平均值，如以下代码所示：

grouped.mean()

中位数

median()函数用于计算每组数据的中位数，如以下代码所示：

grouped.median()

最大值

max()函数用于计算每组数据的最大值，如以下代码所示：

grouped.max()

最小值

min()函数用于计算每组数据的最小值，如以下代码所示：

grouped.min()

方差

var()函数用于计算每组数据的方差，如以下代码所示：

grouped.var()

标准差

std()函数用于计算每组数据的标准差，如以下代码所示：

grouped.std()

聚合函数的组合

以上聚合函数可以进行组合使用，如以下代码所示：

grouped['Sales'].agg(['count', 'sum', 'mean', 'max', 'min', 'var', 'std'])

该代码对数据进行按’Region’列进行分组，并对’Sales’列进行计数（count）、求和（sum）、平均值（mean）、最大值（max）、最小值（min）、方差（var）和标准差（std）的操作。

应用自定义函数

在Pandas中，还可以应用自定义的聚合函数。例如，定义一个计算中位数与平均数之差的自定义函数，如以下代码所示：

def mean_median_difference(x):
    return x.mean() - x.median()

grouped['Sales'].agg(mean_median_difference)

该代码定义了mean_median_difference()函数，将其应用在对’Sales’列进行处理的结果中。

总结

Pandas中的聚合操作用于对数据进行汇总和统计，能够对数据进行分组、计算每组的统计量，并将结果返回为一个数据结构。在进行聚合操作前，需先进行分组操作。常用的聚合函数有count、sum、mean、median、max、min、variance、standard deviation等。以上聚合函数可以进行组合使用，在Pandas中也可以应用自定义的聚合函数。