Pandas GroupBy 和 Mean 操作：数据分组与均值计算的完整指南|极客教程

Pandas GroupBy 和 Mean 操作：数据分组与均值计算的完整指南

Pandas是Python中最流行的数据处理库之一，它提供了强大的数据操作和分析工具。在数据分析中，我们经常需要对数据进行分组并计算统计量，如均值。本文将深入探讨Pandas中的GroupBy和Mean操作，帮助您更好地理解和使用这些功能来处理和分析数据。

1. Pandas GroupBy 简介

GroupBy是Pandas中一个非常重要的操作，它允许我们将数据按照一个或多个列进行分组，然后对每个分组应用各种聚合函数。这种操作在数据分析中非常常见，例如计算不同类别的平均值、总和或其他统计量。

1.1 基本的GroupBy操作

让我们从一个简单的例子开始，看看如何使用GroupBy：

import pandas as pd

# 创建一个示例DataFrame
df = pd.DataFrame({
    'category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'value': [1, 2, 3, 4, 5, 6],
    'website': ['pandasdataframe.com'] * 6
})

# 按category列进行分组，并计算value列的均值
grouped = df.groupby('category')['value'].mean()

print(grouped)

Output:

Pandas GroupBy 和 Mean 操作：数据分组与均值计算的完整指南

在这个例子中，我们创建了一个包含category和value列的DataFrame。然后，我们使用groupby('category')按category列进行分组，并计算value列的均值。这将返回一个Series，其中索引是不同的类别，值是对应的均值。

1.2 多列分组

GroupBy操作不仅限于单列分组，我们还可以按多列进行分组：

import pandas as pd

# 创建一个更复杂的DataFrame
df = pd.DataFrame({
    'category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'subcategory': ['X', 'X', 'Y', 'Y', 'Z', 'Z'],
    'value': [1, 2, 3, 4, 5, 6],
    'website': ['pandasdataframe.com'] * 6
})

# 按category和subcategory列进行分组，并计算value列的均值
grouped = df.groupby(['category', 'subcategory'])['value'].mean()

print(grouped)

Output:

Pandas GroupBy 和 Mean 操作：数据分组与均值计算的完整指南

在这个例子中，我们按category和subcategory两列进行分组。结果是一个多级索引的Series，其中第一级是category，第二级是subcategory。

2. Pandas Mean 操作

Mean（均值）是统计学中最常用的度量之一，它代表了一组数据的平均水平。在Pandas中，我们可以轻松地计算DataFrame或Series的均值。

2.1 计算整个DataFrame的均值

import pandas as pd

# 创建一个示例DataFrame
df = pd.DataFrame({
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50],
    'C': [100, 200, 300, 400, 500],
    'website': ['pandasdataframe.com'] * 5
})

# 计算所有数值列的均值
mean_values = df.mean()

print(mean_values)

在这个例子中，df.mean()会计算DataFrame中所有数值列的均值。注意，非数值列（如’website’）会被自动忽略。

2.2 计算特定列的均值

如果我们只想计算特定列的均值，可以这样做：

import pandas as pd

# 使用与上一个例子相同的DataFrame

# 计算A列的均值
mean_A = df['A'].mean()

print(f"A列的均值: {mean_A}")

# 计算A和B列的均值
mean_AB = df[['A', 'B']].mean()

print("A和B列的均值:")
print(mean_AB)

这个例子展示了如何计算单个列或多个列的均值。

3. 结合GroupBy和Mean的高级操作

现在我们已经了解了GroupBy和Mean的基本用法，让我们看看如何将它们结合起来进行更复杂的数据分析。

3.1 按组计算多列的均值

import pandas as pd

# 创建一个示例DataFrame
df = pd.DataFrame({
    'category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'value1': [1, 2, 3, 4, 5, 6],
    'value2': [10, 20, 30, 40, 50, 60],
    'website': ['pandasdataframe.com'] * 6
})

# 按category分组，并计算value1和value2的均值
grouped_mean = df.groupby('category')[['value1', 'value2']].mean()

print(grouped_mean)

Output:

Pandas GroupBy 和 Mean 操作：数据分组与均值计算的完整指南

这个例子展示了如何按category分组，并同时计算value1和value2两列的均值。结果是一个DataFrame，其中索引是不同的类别，列是value1和value2的均值。

3.2 使用agg方法同时计算多个统计量

import pandas as pd

# 使用与上一个例子相同的DataFrame

# 按category分组，并计算value1和value2的均值和标准差
grouped_stats = df.groupby('category').agg({
    'value1': ['mean', 'std'],
    'value2': ['mean', 'std']
})

print(grouped_stats)

这个例子使用agg方法同时计算了value1和value2的均值和标准差。结果是一个多级列的DataFrame，其中第一级是列名，第二级是统计量名称。

3.3 使用transform方法

transform方法允许我们将聚合结果广播回原始DataFrame的形状：

import pandas as pd

# 创建一个示例DataFrame
df = pd.DataFrame({
    'category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'value': [1, 2, 3, 4, 5, 6],
    'website': ['pandasdataframe.com'] * 6
})

# 计算每个类别的均值，并添加为新列
df['category_mean'] = df.groupby('category')['value'].transform('mean')

print(df)

Output:

Pandas GroupBy 和 Mean 操作：数据分组与均值计算的完整指南

在这个例子中，我们计算了每个类别的均值，并将结果添加为一个新列。transform方法确保结果的形状与原始DataFrame相同，便于后续操作。

4. 处理缺失值

在实际数据分析中，我们经常会遇到缺失值。Pandas提供了多种方法来处理分组操作中的缺失值。

4.1 忽略缺失值

默认情况下，Pandas在计算均值时会忽略缺失值：

import pandas as pd
import numpy as np

# 创建一个包含缺失值的DataFrame
df = pd.DataFrame({
    'category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'value': [1, 2, np.nan, 4, 5, 6],
    'website': ['pandasdataframe.com'] * 6
})

# 按category分组并计算value的均值
grouped_mean = df.groupby('category')['value'].mean()

print(grouped_mean)

Output:

Pandas GroupBy 和 Mean 操作：数据分组与均值计算的完整指南

在这个例子中，A类别中的NaN值被忽略，均值仅基于非缺失值计算。

4.2 包含缺失值

如果我们想在结果中包含缺失值，可以使用skipna=False参数：

import pandas as pd
import numpy as np

# 使用与上一个例子相同的DataFrame

# 按category分组并计算value的均值，包括缺失值
grouped_mean_with_na = df.groupby('category')['value'].mean(skipna=False)

print(grouped_mean_with_na)

这个例子中，如果一个组内所有值都是NaN，结果也会是NaN。

5. 时间序列数据的分组和均值计算

Pandas在处理时间序列数据方面非常强大。我们可以按时间间隔进行分组，并计算均值。

5.1 按月分组

import pandas as pd

# 创建一个时间序列DataFrame
date_range = pd.date_range(start='2023-01-01', end='2023-12-31', freq='D')
df = pd.DataFrame({
    'date': date_range,
    'value': range(len(date_range)),
    'website': ['pandasdataframe.com'] * len(date_range)
})

# 设置日期为索引
df.set_index('date', inplace=True)

# 按月分组并计算均值
monthly_mean = df.groupby(pd.Grouper(freq='M'))['value'].mean()

print(monthly_mean)

这个例子展示了如何创建一个日期范围的DataFrame，然后按月分组并计算均值。pd.Grouper(freq='M')用于按月分组。

5.2 自定义时间间隔分组

我们还可以使用自定义的时间间隔进行分组：

import pandas as pd

# 使用与上一个例子相同的DataFrame

# 按10天分组并计算均值
custom_mean = df.groupby(pd.Grouper(freq='10D'))['value'].mean()

print(custom_mean)

这个例子展示了如何按10天的间隔进行分组和计算均值。

6. 高级GroupBy技巧

6.1 使用自定义函数

我们可以使用自定义函数来进行更复杂的分组计算：

import pandas as pd

# 创建一个示例DataFrame
df = pd.DataFrame({
    'category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'value': [1, 2, 3, 4, 5, 6],
    'website': ['pandasdataframe.com'] * 6
})

# 定义一个自定义函数
def custom_mean(group):
    return group.mean() if len(group) > 2 else None

# 使用自定义函数进行分组计算
custom_grouped = df.groupby('category')['value'].apply(custom_mean)

print(custom_grouped)

Output:

Pandas GroupBy 和 Mean 操作：数据分组与均值计算的完整指南

这个例子定义了一个自定义函数，只有当组内元素数量大于2时才计算均值，否则返回None。

6.2 多级分组

我们可以使用多个列进行分组，创建层次化的结果：

import pandas as pd

# 创建一个多级分组的DataFrame
df = pd.DataFrame({
    'category': ['A', 'A', 'B', 'B', 'A', 'B'],
    'subcategory': ['X', 'Y', 'X', 'Y', 'X', 'Y'],
    'value': [1, 2, 3, 4, 5, 6],
    'website': ['pandasdataframe.com'] * 6
})

# 多级分组并计算均值
multi_grouped = df.groupby(['category', 'subcategory'])['value'].mean()

print(multi_grouped)

Output:

Pandas GroupBy 和 Mean 操作：数据分组与均值计算的完整指南

这个例子展示了如何使用多个列进行分组，结果是一个多级索引的Series。

7. 性能优化技巧

在处理大型数据集时，GroupBy操作可能会变得很慢。以下是一些优化性能的技巧：

7.1 使用categoricals

如果分组的列有有限的唯一值，将其转换为categorical类型可以提高性能：

import pandas as pd

# 创建一个大型DataFrame
df = pd.DataFrame({
    'category': ['A', 'B', 'C'] * 1000000,
    'value': range(3000000),
    'website': ['pandasdataframe.com'] * 3000000
})

# 将category列转换为categorical类型
df['category'] = df['category'].astype('category')

# 进行分组操作
grouped = df.groupby('category')['value'].mean()

print(grouped)

这个例子展示了如何将分组列转换为categorical类型，这在处理大型数据集时可以显著提高性能。

7.2 使用numba加速

对于自定义的聚合函数，我们可以使用numba来加速计算：

import pandas as pd
import numpy as np
from numba import jit

# 创建一个示例DataFrame
df = pd.DataFrame({
    'category': ['A', 'B', 'A', 'B', 'A', 'B'] * 1000000,
    'value': np.random.randn(6000000),
    'website': ['pandasdataframe.com'] * 6000000
})

@jit(nopython=True)
def custom_mean(values):
    return values.mean()

# 使用numba加速的自定义函数进行分组计算
grouped = df.groupby('category')['value'].agg(custom_mean)

print(grouped)

这个例子展示了如何使用numba来加速自定义的聚合函数。对于大型数据集，这可以显著提高性能。

8. 处理大型数据集

当处理非常大的数据集时，内存可能成为一个限制因素。在这种情况下，我们可以使用迭代器来逐块处理数据：

import pandas as pd

# 假设我们有一个非常大的CSV文件
chunk_size = 1000000  # 每次读取的行数
result = []

# 逐块读取并处理数据
for chunk in pd.read_csv('large_file.csv', chunksize=chunksize):
    # 对每个块进行分组和均值计算
    chunk_result = chunk.groupby('category')['value'].mean()
    result.append(chunk_result)

# 合并所有结果
final_result = pd.concat(result).groupby(level=0).mean()

print(final_result)

这个例子展示了如何使用read_csv的chunksize参数来逐块读取大型CSV文件，对每个块进行分组和均值计算，然后合并结果。这种方法可以有效地处理超出内存容量的大型数据集。

9. GroupBy和Mean的实际应用场景

让我们探讨一些GroupBy和Mean操作在实际数据分析中的应用场景。

9.1 销售数据分析

import pandas as pd

# 创建一个销售数据的DataFrame
sales_data = pd.DataFrame({
    'date': pd.date_range(start='2023-01-01', end='2023-12-31', freq='D'),
    'product': ['A', 'B', 'C'] * 122,
    'sales': np.random.randint(100, 1000, 366),
    'website': ['pandasdataframe.com'] * 366
})

# 按产品和月份分组，计算平均销售额
monthly_sales = sales_data.groupby([sales_data['date'].dt.to_period('M'), 'product'])['sales'].mean()

print(monthly_sales)

这个例子展示了如何分析销售数据，计算每个产品在每个月的平均销售额。这种分析可以帮助识别销售趋势和产品表现。

9.2 学生成绩分析

import pandas as pd

# 创建一个学生成绩的DataFrame
student_grades = pd.DataFrame({
    'student_id': range(1, 101),
    'class': ['A', 'B', 'C', 'D'] * 25,
    'subject': ['Math', 'Science', 'English'] * 33 + ['Math'],
    'score': np.random.randint(60, 100, 100),
    'website': ['pandasdataframe.com'] * 100
})

# 计算每个班级在每个科目的平均分
class_subject_avg = student_grades.groupby(['class', 'subject'])['score'].mean()

print(class_subject_avg)

这个例子展示了如何分析学生成绩数据，计算每个班级在每个科目的平均分。这种分析可以帮助教育工作者了解不同班级和科目的整体表现。

10. 处理多维数据

有时我们需要处理多维数据，例如包含多个指标的数据集。

10.1 多指标分析

import pandas as pd

# 创建一个多指标的DataFrame
multi_metric_data = pd.DataFrame({
    'date': pd.date_range(start='2023-01-01', end='2023-12-31', freq='D'),
    'product': ['A', 'B', 'C'] * 122,
    'sales': np.random.randint(100, 1000, 366),
    'units': np.random.randint(10, 100, 366),
    'customer_satisfaction': np.random.uniform(3, 5, 366),
    'website': ['pandasdataframe.com'] * 366
})

# 按产品分组，计算多个指标的均值
product_metrics = multi_metric_data.groupby('product').agg({
    'sales': 'mean',
    'units': 'mean',
    'customer_satisfaction': 'mean'
})

print(product_metrics)

这个例子展示了如何同时分析多个指标，计算每个产品的平均销售额、平均销售单位和平均客户满意度。

11. 高级数据转换

GroupBy和Mean操作还可以用于更复杂的数据转换任务。

11.1 透视表（Pivot Table）

import pandas as pd
import numpy as np

# 创建一个销售数据的DataFrame
sales_data = pd.DataFrame({
    'date': pd.date_range(start='2023-01-01', end='2023-12-31', freq='D'),
    'product': ['A', 'B', 'C'] * 122,
    'region': ['North', 'South', 'East', 'West'] * 91 + ['North', 'South'],
    'sales': np.random.randint(100, 1000, 366),
    'website': ['pandasdataframe.com'] * 366
})

# 创建一个透视表，显示每个产品在每个地区的平均销售额
pivot_table = pd.pivot_table(sales_data, values='sales', index='product', columns='region', aggfunc='mean')

print(pivot_table)

这个例子展示了如何使用透视表来创建一个产品和地区的交叉表，显示平均销售额。这种表格可以快速比较不同产品在不同地区的表现。

11.2 重塑数据（Reshaping）

import pandas as pd

# 创建一个长格式的DataFrame
long_data = pd.DataFrame({
    'date': pd.date_range(start='2023-01-01', end='2023-12-31', freq='D').repeat(3),
    'product': ['A', 'B', 'C'] * 366,
    'sales': np.random.randint(100, 1000, 1098),
    'website': ['pandasdataframe.com'] * 1098
})

# 将数据重塑为宽格式，每个产品作为一列
wide_data = long_data.pivot(index='date', columns='product', values='sales')

# 计算每个产品的移动平均
moving_avg = wide_data.rolling(window=7).mean()

print(moving_avg)

这个例子展示了如何将长格式的数据重塑为宽格式，然后计算每个产品的7天移动平均销售额。这种转换可以帮助我们更好地可视化和分析时间序列数据。

12. 结合其他Pandas功能

GroupBy和Mean操作可以与Pandas的其他功能结合使用，以进行更复杂的数据分析。

12.1 结合排序功能

import pandas as pd

# 创建一个销售数据的DataFrame
sales_data = pd.DataFrame({
    'product': ['A', 'B', 'C', 'D'] * 25,
    'category': ['Electronics', 'Clothing', 'Food', 'Books'] * 25,
    'sales': np.random.randint(1000, 10000, 100),
    'website': ['pandasdataframe.com'] * 100
})

# 按类别分组，计算平均销售额，并按平均销售额降序排序
category_sales = sales_data.groupby('category')['sales'].mean().sort_values(ascending=False)

print(category_sales)

这个例子展示了如何计算每个类别的平均销售额，然后按销售额降序排序。这可以帮助我们快速识别表现最好的产品类别。

12.2 结合过滤功能

import pandas as pd

# 使用与上一个例子相同的DataFrame

# 计算每个产品的平均销售额，并只保留平均销售额超过5000的产品
high_performing_products = sales_data.groupby('product')['sales'].mean()[lambda x: x > 5000]

print(high_performing_products)

这个例子展示了如何计算每个产品的平均销售额，然后只保留平均销售额超过5000的产品。这种方法可以帮助我们快速识别高性能产品。

13. 处理时间序列数据

Pandas在处理时间序列数据方面非常强大，我们可以结合GroupBy和Mean操作来分析时间相关的数据。

13.1 按季度分组

import pandas as pd

# 创建一个时间序列数据的DataFrame
time_series_data = pd.DataFrame({
    'date': pd.date_range(start='2020-01-01', end='2023-12-31', freq='D'),
    'value': np.random.randn(1461),
    'website': ['pandasdataframe.com'] * 1461
})

# 按季度分组并计算平均值
quarterly_avg = time_series_data.groupby(pd.Grouper(key='date', freq='Q'))['value'].mean()

print(quarterly_avg)

这个例子展示了如何将数据按季度分组，并计算每个季度的平均值。这种分析可以帮助我们识别季节性趋势。

13.2 滚动窗口计算

import pandas as pd

# 使用与上一个例子相同的DataFrame

# 计算30天滚动平均
rolling_avg = time_series_data.set_index('date')['value'].rolling(window='30D').mean()

print(rolling_avg)

这个例子展示了如何计算30天的滚动平均。滚动窗口计算可以帮助我们平滑短期波动，更好地观察长期趋势。