Pandas 带权平均和加权求和

在本文中，我们将介绍Pandas中如何使用groupby实现DataFrame的带权平均和加权求和功能。

带权平均

带权平均是一种计算平均值的方法，它根据不同数据的权重来计算平均值。在数据分析领域中，常常需要计算带权平均，例如统计教育成绩时，不同学科的成绩权重不同。Pandas中可以使用groupby实现带权平均。

下面是一个示例数据，包括学生姓名、成绩和科目：

import pandas as pd

data = {
    'name': ['张三', '李四', '王五', '赵六', '钱七'],
    'score': [80, 85, 90, 85, 95],
    'subject': ['语文', '数学', '语文', '数学', '语文'],
    'weight': [0.4, 0.3, 0.3, 0.4, 0.6]
}

df = pd.DataFrame(data)

如果需要计算每个学生的平均分数，根据不同科目的权重，可以使用groupby和apply方法实现带权平均：

def weighted_average(x):
    return np.average(x['score'], weights=x['weight'])

result = df.groupby(['name', 'subject']).apply(weighted_average)

上述代码中，我们首先定义了一个带权平均的函数weighted_average，然后使用groupby对数据进行分组，最后使用apply调用该函数并获得结果。结果将按照分组的顺序返回一个Series对象，包含每个组的带权平均值。

带权加和

带权加和是另一种根据数据权重计算的方法。在实际应用中，带权加和可以用于统计数量和金额，以及权重与数据相关的场景。Pandas中也可以使用groupby实现带权加和。

下面是一个示例数据，包括商品名称、价格和销售数量：

data = {
    'product': ['A', 'B', 'C', 'D', 'A', 'B', 'C', 'D'],
    'price': [10, 20, 30, 40, 15, 25, 35, 45],
    'quantity': [100, 200, 300, 400, 150, 250, 350, 450],
    'weight': [0.4, 0.3, 0.2, 0.1, 0.6, 0.7, 0.8, 0.9]
}

df = pd.DataFrame(data)

如果需要计算所有商品的带权总价和带权总销量，可以使用groupby和agg方法实现带权加和：

result = df.groupby('product').agg(
    {'price': lambda x: np.sum(x * df.loc[x.index, 'weight']), 
     'quantity': lambda x: np.sum(x * df.loc[x.index, 'weight'])})