Pandas 聚合
在本文中,我们将介绍Pandas中的聚合操作。Pandas的聚合操作用于对数据进行汇总和统计,能够对数据进行分组、计算每组的统计量,并将结果返回为一个数据结构。常用的聚合函数有count、sum、mean、median、max、min、variance、standard deviation等。
阅读更多:Pandas 教程
分组操作
在进行聚合操作前,需先进行分组操作。Pandas的分组操作可以对数据进行按列或按行的分组。其中groupby()方法用于按列分组,如下例所示:
以上代码通过读取csv文件创建一个名为df的数据帧,对该数据帧按’Region’列进行分组,结果存储在grouped变量中。
此外,还可以通过多列进行分组,例如:
常用聚合函数
Pandas中常用的聚合函数有count、sum、mean、median、max、min、variance、standard deviation等。
计数
count()函数用于计算每组数据的数量,如以下代码所示:
求和
sum()函数用于对每组数据进行求和计算,如以下代码所示:
平均值
mean()函数用于计算每组数据的平均值,如以下代码所示:
中位数
median()函数用于计算每组数据的中位数,如以下代码所示:
最大值
max()函数用于计算每组数据的最大值,如以下代码所示:
最小值
min()函数用于计算每组数据的最小值,如以下代码所示:
方差
var()函数用于计算每组数据的方差,如以下代码所示:
标准差
std()函数用于计算每组数据的标准差,如以下代码所示:
聚合函数的组合
以上聚合函数可以进行组合使用,如以下代码所示:
该代码对数据进行按’Region’列进行分组,并对’Sales’列进行计数(count)、求和(sum)、平均值(mean)、最大值(max)、最小值(min)、方差(var)和标准差(std)的操作。
应用自定义函数
在Pandas中,还可以应用自定义的聚合函数。例如,定义一个计算中位数与平均数之差的自定义函数,如以下代码所示:
该代码定义了mean_median_difference()函数,将其应用在对’Sales’列进行处理的结果中。
总结
Pandas中的聚合操作用于对数据进行汇总和统计,能够对数据进行分组、计算每组的统计量,并将结果返回为一个数据结构。在进行聚合操作前,需先进行分组操作。常用的聚合函数有count、sum、mean、median、max、min、variance、standard deviation等。以上聚合函数可以进行组合使用,在Pandas中也可以应用自定义的聚合函数。