Pandas GroupBy 操作：如何添加和汇总列数据|极客教程

Pandas GroupBy 操作：如何添加和汇总列数据

Pandas是Python中强大的数据处理库，其中GroupBy操作是一个非常实用的功能，可以帮助我们对数据进行分组、汇总和分析。本文将详细介绍如何使用Pandas的GroupBy操作来添加和汇总列数据，包括基本概念、常用方法以及实际应用示例。

1. GroupBy的基本概念

GroupBy操作的核心思想是”拆分-应用-组合”。它首先将数据按照指定的一个或多个列进行分组（拆分），然后对每个分组应用特定的函数或操作（应用），最后将结果组合成一个新的DataFrame（组合）。

以下是一个简单的GroupBy示例：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'sales': [100, 200, 300, 150, 250]
}
df = pd.DataFrame(data)

# 按name列进行分组，并计算sales列的总和
result = df.groupby('name')['sales'].sum()

print("GroupBy result from pandasdataframe.com:")
print(result)

Output:

Pandas GroupBy 操作：如何添加和汇总列数据

在这个例子中，我们首先创建了一个包含姓名、城市和销售额的DataFrame。然后，我们使用groupby('name')按姓名进行分组，并计算每个人的总销售额。

2. GroupBy后添加新列

有时，我们需要在分组后的结果中添加新的列。这可以通过多种方式实现，下面我们将介绍几种常用的方法。

2.1 使用agg()方法添加多个汇总列

agg()方法允许我们同时对多个列应用不同的聚合函数：

import pandas as pd

# 创建示例数据
data = {
    'product': ['A', 'B', 'A', 'B', 'A'],
    'category': ['X', 'X', 'Y', 'Y', 'X'],
    'sales': [100, 200, 150, 300, 120],
    'quantity': [10, 15, 12, 20, 8]
}
df = pd.DataFrame(data)

# 使用agg()方法添加多个汇总列
result = df.groupby('product').agg({
    'sales': ['sum', 'mean'],
    'quantity': ['sum', 'max']
})

print("Aggregation result from pandasdataframe.com:")
print(result)

Output:

Pandas GroupBy 操作：如何添加和汇总列数据

在这个例子中，我们按产品分组，并计算了销售额的总和和平均值，以及数量的总和和最大值。agg()方法允许我们为不同的列指定不同的聚合函数。

2.2 使用transform()方法添加组内计算列

transform()方法可以将聚合结果广播回原始DataFrame的形状，这对于添加基于组计算的新列非常有用：

import pandas as pd

# 创建示例数据
data = {
    'team': ['A', 'A', 'B', 'B', 'A'],
    'player': ['P1', 'P2', 'P3', 'P4', 'P5'],
    'score': [10, 15, 12, 8, 20]
}
df = pd.DataFrame(data)

# 使用transform()添加组内平均分数列
df['team_avg_score'] = df.groupby('team')['score'].transform('mean')

print("DataFrame with team average score from pandasdataframe.com:")
print(df)

Output:

Pandas GroupBy 操作：如何添加和汇总列数据

在这个例子中，我们为每个球员添加了他所在团队的平均分数。transform()方法确保了新列的长度与原始DataFrame相同，每个球员都得到了他所在团队的平均分数。

2.3 使用apply()方法进行复杂的组内计算

对于更复杂的组内计算，我们可以使用apply()方法并定义自定义函数：

import pandas as pd

# 创建示例数据
data = {
    'department': ['IT', 'HR', 'IT', 'HR', 'IT'],
    'employee': ['E1', 'E2', 'E3', 'E4', 'E5'],
    'salary': [5000, 4000, 6000, 4500, 5500]
}
df = pd.DataFrame(data)

# 定义自定义函数计算工资差异
def salary_diff(group):
    return group['salary'] - group['salary'].mean()

# 使用apply()方法添加工资差异列
df['salary_diff'] = df.groupby('department')['salary'].apply(salary_diff)

print("DataFrame with salary difference from pandasdataframe.com:")
print(df)

在这个例子中，我们定义了一个自定义函数salary_diff，它计算每个员工的工资与其所在部门平均工资的差异。然后，我们使用apply()方法将这个函数应用到每个部门组。

3. GroupBy后进行列的汇总计算

GroupBy操作最常见的用途之一就是对分组后的数据进行汇总计算。Pandas提供了多种方法来实现这一目的。

3.1 使用sum()方法计算列总和

import pandas as pd

# 创建示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A'],
    'subcategory': ['X', 'X', 'Y', 'Y', 'X'],
    'sales': [100, 200, 150, 300, 120]
}
df = pd.DataFrame(data)

# 使用sum()计算每个类别的总销售额
result = df.groupby('category')['sales'].sum()

print("Sum of sales by category from pandasdataframe.com:")
print(result)

Output:

Pandas GroupBy 操作：如何添加和汇总列数据

这个例子展示了如何使用sum()方法计算每个类别的总销售额。这是最简单和最常用的汇总操作之一。

3.2 使用mean()方法计算列平均值

import pandas as pd

# 创建示例数据
data = {
    'product': ['A', 'B', 'A', 'B', 'A'],
    'store': ['S1', 'S1', 'S2', 'S2', 'S1'],
    'price': [10, 15, 12, 18, 11]
}
df = pd.DataFrame(data)

# 使用mean()计算每个产品的平均价格
result = df.groupby('product')['price'].mean()

print("Average price by product from pandasdataframe.com:")
print(result)

Output:

Pandas GroupBy 操作：如何添加和汇总列数据

这个例子展示了如何使用mean()方法计算每个产品的平均价格。这对于了解产品的整体定价情况非常有用。

3.3 使用count()方法计算组内元素数量

import pandas as pd

# 创建示例数据
data = {
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'visitor': ['V1', 'V2', 'V3', 'V4', 'V5']
}
df = pd.DataFrame(data)

# 使用count()计算每个城市的访客数量
result = df.groupby('city')['visitor'].count()

print("Visitor count by city from pandasdataframe.com:")
print(result)

Output:

Pandas GroupBy 操作：如何添加和汇总列数据

这个例子展示了如何使用count()方法计算每个城市的访客数量。这对于了解不同城市的受欢迎程度很有帮助。

3.4 使用max()和min()方法找出最大和最小值

import pandas as pd

# 创建示例数据
data = {
    'student': ['S1', 'S2', 'S1', 'S2', 'S1'],
    'subject': ['Math', 'Math', 'English', 'English', 'Science'],
    'score': [85, 90, 78, 88, 92]
}
df = pd.DataFrame(data)

# 使用max()和min()找出每个学生的最高和最低分数
result = df.groupby('student')['score'].agg(['max', 'min'])

print("Max and min scores by student from pandasdataframe.com:")
print(result)

Output:

Pandas GroupBy 操作：如何添加和汇总列数据

这个例子展示了如何使用max()和min()方法找出每个学生的最高和最低分数。这对于了解学生的成绩范围非常有用。

4. 高级GroupBy操作

除了基本的汇总操作，Pandas还提供了一些高级的GroupBy功能，可以帮助我们进行更复杂的数据分析。

4.1 多列分组

有时我们需要根据多个列进行分组：

import pandas as pd

# 创建示例数据
data = {
    'year': [2020, 2020, 2021, 2021, 2020],
    'quarter': [1, 2, 1, 2, 1],
    'sales': [1000, 1200, 1100, 1300, 1050]
}
df = pd.DataFrame(data)

# 按年份和季度分组，计算销售总额
result = df.groupby(['year', 'quarter'])['sales'].sum()

print("Sales by year and quarter from pandasdataframe.com:")
print(result)

Output:

Pandas GroupBy 操作：如何添加和汇总列数据

这个例子展示了如何按年份和季度进行分组，并计算每个组合的销售总额。这对于分析时间序列数据非常有用。

4.2 使用自定义聚合函数

有时标准的聚合函数可能无法满足我们的需求，这时我们可以定义自己的聚合函数：

import pandas as pd

# 创建示例数据
data = {
    'product': ['A', 'B', 'A', 'B', 'A'],
    'sales': [100, 200, 150, 300, 120]
}
df = pd.DataFrame(data)

# 定义自定义聚合函数
def sales_range(x):
    return x.max() - x.min()

# 使用自定义函数进行聚合
result = df.groupby('product')['sales'].agg(['sum', 'mean', sales_range])

print("Custom aggregation result from pandasdataframe.com:")
print(result)

Output:

Pandas GroupBy 操作：如何添加和汇总列数据

在这个例子中，我们定义了一个sales_range函数来计算销售额的范围（最大值减最小值）。然后，我们将这个自定义函数与标准的sum和mean函数一起使用。

4.3 使用groupby().filter()进行过滤

filter()方法允许我们根据组级别的条件来过滤数据：

import pandas as pd

# 创建示例数据
data = {
    'team': ['A', 'A', 'B', 'B', 'C'],
    'player': ['P1', 'P2', 'P3', 'P4', 'P5'],
    'score': [10, 15, 12, 8, 20]
}
df = pd.DataFrame(data)

# 过滤出平均分数大于10的团队
result = df.groupby('team').filter(lambda x: x['score'].mean() > 10)

print("Filtered DataFrame from pandasdataframe.com:")
print(result)

Output:

Pandas GroupBy 操作：如何添加和汇总列数据

这个例子展示了如何使用filter()方法来选择平均分数大于10的团队。这对于根据组级别的条件来筛选数据非常有用。

4.4 使用groupby().transform()进行组内标准化

transform()方法不仅可以用于添加新列，还可以用于进行组内的数据标准化：

import pandas as pd

# 创建示例数据
data = {
    'department': ['IT', 'HR', 'IT', 'HR', 'IT'],
    'employee': ['E1', 'E2', 'E3', 'E4', 'E5'],
    'salary': [5000, 4000, 6000, 4500, 5500]
}
df = pd.DataFrame(data)

# 进行组内标准化
df['salary_normalized'] = df.groupby('department')['salary'].transform(lambda x: (x - x.mean()) / x.std())

print("DataFrame with normalized salary from pandasdataframe.com:")
print(df)

Output:

Pandas GroupBy 操作：如何添加和汇总列数据

这个例子展示了如何使用transform()方法对每个部门的工资进行标准化处理。这对于比较不同部门间的工资分布非常有用。

5. GroupBy操作的性能优化

当处理大型数据集时，GroupBy操作可能会变得很慢。以下是一些提高GroupBy操作性能的技巧：

5.1 使用categoricals

如果分组键是字符串，将其转换为categorical类型可以显著提高性能：

import pandas as pd

# 创建示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A'] * 1000,
    'value': range(5000)
}
df = pd.DataFrame(data)

# 将category列转换为categorical类型
df['category'] = df['category'].astype('category')

# 进行GroupBy操作
result = df.groupby('category')['value'].sum()

print("GroupBy result with categorical from pandasdataframe.com:")
print(result)

在这个例子中，我们将’category’列转换为categorical类型。对于大型数据集，这可以显著提高GroupBy操作的速度。

5.2 使用numba加速

对于自定义聚合函数，我们可以使用numba来加速计算：

import pandas as pd
import numpy as np
from numba import jit

# 创建示例数据
np.random.seed(0)
data = {
    'group': np.random.choice(['A', 'B', 'C'], size=100000),
    'value': np.random.randn(100000)
}
df = pd.DataFrame(data)

# 使用numba定义加速函数
@jit(nopython=True)
def custom_agg(values):
    return np.mean(values) * np.std(values)

# 进行GroupBy操作
result = df.groupby('group')['value'].agg(custom_agg)

print("GroupBy result with numba from pandasdataframe.com:")
print(result)

在这个例子中，我们使用numba的@jit装饰器来加速自定义聚合函数。对于大型数据集和复杂的计算，这可以显著提高性能。

6. GroupBy操作的常见陷阱和注意事项

尽管GroupBy操作非常强大，但在使用时也需要注意一些常见的陷阱：

6.1 处理缺失值

GroupBy操作默认会排除缺失值，这可能会导致意外的结果：

import pandas as pd
import numpy as np

# 创建包含缺失值的示例数据
data = {
    'group': ['A', 'A', 'B', 'B', 'A'],
    'value': [1, np.nan, 3, 4, 5]
}
df = pd.DataFrame(data)

# 进行GroupBy操作
result = df.groupby('group')['value'].sum()

print("GroupBy result with missing values from pandasdataframe.com:")
print(result)

Output:

Pandas GroupBy 操作：如何添加和汇总列数据

在这个例子中，’A’组的和不包括NaN值。如果你想包括NaN值，可以使用df.groupby('group')['value'].sum(min_count=1)。

6.2 处理重复的索引

GroupBy操作后可能会产生重复的索引，这在进行后续操作时可能会引起问题：

import pandas as pd

# 创建示例数据
data = {
    'group': ['A', 'B', 'A', 'B'],
    'subgroup': ['X', 'X', 'Y', 'Y'],
    'value': [1, 2, 3, 4]
}
df = pd.DataFrame(data)

# 进行多级GroupBy操作
result = df.groupby(['group', 'subgroup']).sum()

print("Multi-level GroupBy result from pandasdataframe.com:")
print(result)

# 尝试访问特定行
try:
    print(result.loc['A'])
except KeyError:
    print("KeyError occurred when trying to access 'A'")

Output:

Pandas GroupBy 操作：如何添加和汇总列数据

在这个例子中，我们无法直接使用result.loc['A']来访问’A’组的数据，因为索引是多级的。正确的访问方式应该是result.loc['A', :]。

6.3 理解GroupBy对象的惰性求值

GroupBy对象是惰性的，只有在调用聚合方法时才会真正执行计算：

import pandas as pd

# 创建示例数据
data = {
    'group': ['A', 'B', 'A', 'B', 'A'],
    'value': [1, 2, 3, 4, 5]
}
df = pd.DataFrame(data)

# 创建GroupBy对象
grouped = df.groupby('group')

print("GroupBy object from pandasdataframe.com:")
print(grouped)

# 执行聚合操作
result = grouped.sum()

print("Aggregation result:")
print(result)

Output:

Pandas GroupBy 操作：如何添加和汇总列数据

在这个例子中，grouped对象本身并不包含计算结果，只有在调用sum()方法时才会执行实际的聚合操作。

7. 高级应用：时间序列数据的GroupBy操作

对于时间序列数据，Pandas提供了特殊的GroupBy功能：

import pandas as pd
import numpy as np

# 创建时间序列数据
dates = pd.date_range('20210101', periods=100)
data = {
    'date': dates,
    'value': np.random.randn(100)
}
df = pd.DataFrame(data)

# 按月份分组
monthly_avg = df.groupby(df['date'].dt.to_period('M'))['value'].mean()

print("Monthly average from pandasdataframe.com:")
print(monthly_avg)

Output:

Pandas GroupBy 操作：如何添加和汇总列数据

这个例子展示了如何对时间序列数据按月份进行分组和计算平均值。dt.to_period('M')方法将日期转换为月份周期，使得我们可以轻松地按月份进行分组。

8. 结合其他Pandas功能的GroupBy操作

GroupBy操作可以与Pandas的其他功能结合使用，以实现更复杂的数据分析任务。

8.1 结合merge操作

有时我们需要在GroupBy操作后将结果与原始数据合并：

import pandas as pd

# 创建示例数据
data = {
    'employee': ['E1', 'E2', 'E3', 'E4', 'E5'],
    'department': ['IT', 'HR', 'IT', 'HR', 'IT'],
    'salary': [5000, 4000, 6000, 4500, 5500]
}
df = pd.DataFrame(data)

# 计算每个部门的平均工资
dept_avg = df.groupby('department')['salary'].mean().reset_index()
dept_avg.columns = ['department', 'dept_avg_salary']

# 将结果与原始数据合并
result = pd.merge(df, dept_avg, on='department')

print("Merged result from pandasdataframe.com:")
print(result)

Output:

Pandas GroupBy 操作：如何添加和汇总列数据

这个例子展示了如何计算每个部门的平均工资，然后将结果合并回原始数据框，使得我们可以比较每个员工的工资与其所在部门的平均工资。

8.2 结合pivot_table操作

GroupBy操作可以与pivot_table结合使用，以创建更复杂的汇总表：

import pandas as pd
import numpy as np

# 创建示例数据
data = {
    'date': pd.date_range('20210101', periods=100),
    'product': np.random.choice(['A', 'B', 'C'], 100),
    'store': np.random.choice(['S1', 'S2'], 100),
    'sales': np.random.randint(100, 1000, 100)
}
df = pd.DataFrame(data)

# 创建透视表
pivot = pd.pivot_table(df, values='sales', index=['date'], 
                       columns=['product', 'store'], aggfunc='sum')

print("Pivot table from pandasdataframe.com:")
print(pivot.head())

Output:

Pandas GroupBy 操作：如何添加和汇总列数据