Pandas动态列名聚合

在本文中，我们将介绍带有动态列名的Pandas聚合方法。在处理数据时，经常会遇到需要根据不同的列名进行聚合的需求，如果是固定列名可以很容易地使用Pandas自带的聚合方法，但是如果存在动态的列名，就需要借助一些技巧来实现。下面将介绍两种常用的方法。

阅读更多：Pandas 教程

方法一：使用groupby()方法

首先，我们先来看一下需要处理的数据，假设有以下两个DataFrame：

import pandas as pd

df1 = pd.DataFrame({'id': [1, 1, 2, 2], 'date': ['2022-01-01', '2022-01-03', '2022-01-01', '2022-01-05'], 'value1': [3, 4, 5, 6], 'value2': [7, 8, 9, 10]})
df2 = pd.DataFrame({'id': [1, 2], 'name': ['Alice', 'Bob'], 'value1_weight': [0.6, 0.4], 'value2_weight': [0.5, 0.5]})

df1的数据如下：

id	date	value1	value2
1	2022-01-01	3	7
1	2022-01-03	4	8
2	2022-01-01	5	9
2	2022-01-05	6	10

df2的数据如下：

id	name	value1_weight	value2_weight
1	Alice	0.6	0.5
2	Bob	0.4	0.5

现在的任务是，需要将df1中的value1和value2根据id进行加权平均，权重存在df2中对应的value1_weight和value2_weight列。

那么，如何根据df2中的列名动态进行聚合呢？这时可以使用Pandas中的groupby()方法，通过传入一个包含动态列名的列表来实现动态聚合。

df_agg = df1.groupby('id').apply(lambda x: pd.Series([x.loc[:, f'value{i+1}'].dot(df2.loc[df2['id']==x.name, f'value{i+1}_weight']) for i in range(2)], index=['value1_weighted', 'value2_weighted']))

代码中，apply()方法被用来对每个id的数据进行聚合，通过嵌套使用lambda表达式和pd.Series方法，可以方便地生成含有动态列名的Series对象，最终的结果如下：

	value1_weighted	value2_weighted
1	3.60000	4.50000
2	5.40000	9.00000

这个方法的优点是能够灵活地应对不同的动态列名情况，缺点是代码相对比较冗长。

方法二：使用eval()方法

除了groupby()方法，Pandas还提供了一种使用eval()方法实现动态列名聚合的方法。

在使用eval()方法时，需要将聚合所需要的参数包装成字典传入到方法内部，而不是像groupby()方法那样直接传入列名列表。需要注意的是，字典的键名需要以@符号开头，这是为了区分普通字符串和表达式字符串。其中，表达式字符串中可以使用Python中所有的算术运算符、布尔运算符、函数和各种变量。

df_agg = df1.groupby('id').agg(value1_weighted=pd.NamedAgg(column='value1', aggfunc=lambda x: (x * df2.eval('@value1_weight')).sum()),
           value2_weighted=pd.NamedAgg(column='value2', aggfunc=lambda x: (x * df2.eval('@value2_weight')).sum()))

代码中，通过pd.NamedAgg()方法为聚合结果定义了列名，并在agg()方法中传入了一个字典，其中键名以@开头，键值是一个lambda表达式，用来实现加权平均的计算，最终得到的结果如下：