Pandas 聚合

Pandas 聚合

在本文中,我们将介绍Pandas中的聚合操作。Pandas的聚合操作用于对数据进行汇总和统计,能够对数据进行分组、计算每组的统计量,并将结果返回为一个数据结构。常用的聚合函数有count、sum、mean、median、max、min、variance、standard deviation等。

阅读更多:Pandas 教程

分组操作

在进行聚合操作前,需先进行分组操作。Pandas的分组操作可以对数据进行按列或按行的分组。其中groupby()方法用于按列分组,如下例所示:

import pandas as pd

data=pd.read_csv('sales.csv')
df=pd.DataFrame(data)

grouped = df.groupby('Region')
Python

以上代码通过读取csv文件创建一个名为df的数据帧,对该数据帧按’Region’列进行分组,结果存储在grouped变量中。

此外,还可以通过多列进行分组,例如:

grouped = df.groupby(['Region', 'Country'])
Python

常用聚合函数

Pandas中常用的聚合函数有count、sum、mean、median、max、min、variance、standard deviation等。

计数

count()函数用于计算每组数据的数量,如以下代码所示:

grouped.count()
Python

求和

sum()函数用于对每组数据进行求和计算,如以下代码所示:

grouped.sum()
Python

平均值

mean()函数用于计算每组数据的平均值,如以下代码所示:

grouped.mean()
Python

中位数

median()函数用于计算每组数据的中位数,如以下代码所示:

grouped.median()
Python

最大值

max()函数用于计算每组数据的最大值,如以下代码所示:

grouped.max()
Python

最小值

min()函数用于计算每组数据的最小值,如以下代码所示:

grouped.min()
Python

方差

var()函数用于计算每组数据的方差,如以下代码所示:

grouped.var()
Python

标准差

std()函数用于计算每组数据的标准差,如以下代码所示:

grouped.std()
Python

聚合函数的组合

以上聚合函数可以进行组合使用,如以下代码所示:

grouped['Sales'].agg(['count', 'sum', 'mean', 'max', 'min', 'var', 'std'])
Python

该代码对数据进行按’Region’列进行分组,并对’Sales’列进行计数(count)、求和(sum)、平均值(mean)、最大值(max)、最小值(min)、方差(var)和标准差(std)的操作。

应用自定义函数

在Pandas中,还可以应用自定义的聚合函数。例如,定义一个计算中位数与平均数之差的自定义函数,如以下代码所示:

def mean_median_difference(x):
    return x.mean() - x.median()

grouped['Sales'].agg(mean_median_difference)
Python

该代码定义了mean_median_difference()函数,将其应用在对’Sales’列进行处理的结果中。

总结

Pandas中的聚合操作用于对数据进行汇总和统计,能够对数据进行分组、计算每组的统计量,并将结果返回为一个数据结构。在进行聚合操作前,需先进行分组操作。常用的聚合函数有count、sum、mean、median、max、min、variance、standard deviation等。以上聚合函数可以进行组合使用,在Pandas中也可以应用自定义的聚合函数。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

登录

注册