Pandas GroupBy 和平均值计算：数据分析利器|极客教程

Pandas GroupBy 和平均值计算：数据分析利器

Pandas是Python中强大的数据处理和分析库，其中GroupBy操作和平均值计算是数据分析中常用的技术。本文将深入探讨Pandas中的GroupBy功能以及如何结合平均值计算进行数据分析，帮助您更好地理解和应用这些工具。

1. Pandas GroupBy 简介

GroupBy操作允许我们将数据按照某个或某些列进行分组，然后对每个组进行聚合操作。这在数据分析中非常有用，可以帮助我们发现数据中的模式和趋势。

1.1 基本用法

让我们从一个简单的例子开始：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'age': [25, 30, 35, 25, 30],
    'score': [80, 85, 90, 75, 95]
}
df = pd.DataFrame(data)

# 按名字分组并计算平均分数
grouped = df.groupby('name')['score'].mean()
print(grouped)

Output:

Pandas GroupBy 和平均值计算：数据分析利器

在这个例子中，我们创建了一个包含姓名、年龄和分数的DataFrame。然后，我们使用groupby('name')按姓名分组，并计算每个人的平均分数。

1.2 多列分组

GroupBy也支持多列分组：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob'],
    'city': ['New York', 'London', 'Paris', 'New York', 'London'],
    'sales': [100, 200, 300, 150, 250]
}
df = pd.DataFrame(data)

# 按名字和城市分组并计算平均销售额
grouped = df.groupby(['name', 'city'])['sales'].mean()
print(grouped)

Output:

Pandas GroupBy 和平均值计算：数据分析利器

这个例子展示了如何按多个列（姓名和城市）进行分组，并计算每个组的平均销售额。

2. 计算平均值

平均值是数据分析中最常用的统计指标之一。Pandas提供了多种方法来计算平均值。

2.1 使用mean()函数

mean()函数是计算平均值最直接的方法：

import pandas as pd

# 创建示例数据
data = {
    'product': ['A', 'B', 'C', 'A', 'B', 'C'],
    'price': [10, 15, 20, 12, 18, 22]
}
df = pd.DataFrame(data)

# 计算所有产品的平均价格
average_price = df['price'].mean()
print(f"Average price: {average_price}")

# 按产品分组并计算平均价格
grouped_average = df.groupby('product')['price'].mean()
print(grouped_average)

Output:

Pandas GroupBy 和平均值计算：数据分析利器

这个例子展示了如何计算整个DataFrame中的平均价格，以及如何按产品分组计算平均价格。

2.2 处理缺失值

在计算平均值时，处理缺失值是一个重要的考虑因素：

import pandas as pd
import numpy as np

# 创建包含缺失值的示例数据
data = {
    'product': ['A', 'B', 'C', 'A', 'B', 'C'],
    'price': [10, 15, np.nan, 12, 18, 22]
}
df = pd.DataFrame(data)

# 计算平均价格，忽略缺失值
average_price = df['price'].mean()
print(f"Average price (ignoring NaN): {average_price}")

# 使用fillna处理缺失值后计算平均价格
df['price_filled'] = df['price'].fillna(df['price'].mean())
average_price_filled = df['price_filled'].mean()
print(f"Average price (after filling NaN): {average_price_filled}")

Output:

Pandas GroupBy 和平均值计算：数据分析利器

在这个例子中，我们展示了如何处理包含缺失值的数据。mean()函数默认会忽略缺失值，但我们也可以选择用其他值（如整体平均值）来填充缺失值后再计算。

3. GroupBy 和平均值结合使用

GroupBy和平均值计算的结合使用是数据分析中的常见操作。

3.1 基本分组平均

import pandas as pd

# 创建示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'value': [10, 20, 15, 25, 12, 22]
}
df = pd.DataFrame(data)

# 按类别分组并计算平均值
grouped_mean = df.groupby('category')['value'].mean()
print(grouped_mean)

Output:

Pandas GroupBy 和平均值计算：数据分析利器

这个例子展示了如何按类别分组并计算每个类别的平均值。

3.2 多列分组和多列平均

import pandas as pd

# 创建示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'subcategory': ['X', 'Y', 'X', 'Y', 'Y', 'X'],
    'value1': [10, 20, 15, 25, 12, 22],
    'value2': [100, 200, 150, 250, 120, 220]
}
df = pd.DataFrame(data)

# 按类别和子类别分组，并计算多个列的平均值
grouped_mean = df.groupby(['category', 'subcategory']).agg({
    'value1': 'mean',
    'value2': 'mean'
})
print(grouped_mean)

Output:

Pandas GroupBy 和平均值计算：数据分析利器

这个例子展示了如何按多个列进行分组，并同时计算多个列的平均值。

3.3 使用transform进行分组平均

transform方法允许我们在保持原始DataFrame结构的同时应用分组操作：

import pandas as pd

# 创建示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'value': [10, 20, 15, 25, 12, 22]
}
df = pd.DataFrame(data)

# 使用transform计算分组平均
df['category_mean'] = df.groupby('category')['value'].transform('mean')
print(df)

Output:

Pandas GroupBy 和平均值计算：数据分析利器

这个例子展示了如何使用transform方法为每个类别计算平均值，并将结果添加为新列。

4. 高级GroupBy技巧

4.1 自定义聚合函数

除了内置的聚合函数，我们还可以使用自定义函数进行聚合：

import pandas as pd

# 创建示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'value': [10, 20, 15, 25, 12, 22]
}
df = pd.DataFrame(data)

# 自定义聚合函数
def custom_agg(x):
    return (x.mean() + x.median()) / 2

# 使用自定义函数进行分组聚合
grouped_custom = df.groupby('category')['value'].agg(custom_agg)
print(grouped_custom)

Output:

Pandas GroupBy 和平均值计算：数据分析利器

这个例子展示了如何定义和使用自定义聚合函数，这里我们计算了平均值和中位数的平均。

4.2 多重索引结果的处理

GroupBy操作经常会产生多重索引的结果，我们可以使用unstack()方法来重塑这些结果：

import pandas as pd

# 创建示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'subcategory': ['X', 'Y', 'Y', 'X', 'X', 'Y'],
    'value': [10, 20, 15, 25, 12, 22]
}
df = pd.DataFrame(data)

# 多重索引分组
grouped = df.groupby(['category', 'subcategory'])['value'].mean()
print("Grouped result:")
print(grouped)

# 使用unstack重塑结果
unstacked = grouped.unstack()
print("\nUnstacked result:")
print(unstacked)

Output:

Pandas GroupBy 和平均值计算：数据分析利器

这个例子展示了如何处理多重索引的GroupBy结果，并使用unstack()方法将其转换为更易读的形式。

4.3 按时间间隔分组

在处理时间序列数据时，我们经常需要按时间间隔进行分组：

import pandas as pd

# 创建示例时间序列数据
dates = pd.date_range(start='2023-01-01', end='2023-12-31', freq='D')
data = {
    'date': dates,
    'value': range(len(dates))
}
df = pd.DataFrame(data)

# 按月分组并计算平均值
monthly_avg = df.groupby(df['date'].dt.to_period('M'))['value'].mean()
print(monthly_avg)

Output:

Pandas GroupBy 和平均值计算：数据分析利器

这个例子展示了如何将日期数据按月分组，并计算每月的平均值。

5. 性能优化技巧

在处理大型数据集时，GroupBy操作可能会变得很慢。以下是一些优化技巧：

5.1 使用categoricals

对于包含重复值的列，将其转换为categorical类型可以提高性能：

import pandas as pd

# 创建示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A', 'B'] * 1000000,
    'value': range(6000000)
}
df = pd.DataFrame(data)

# 将category列转换为categorical类型
df['category'] = df['category'].astype('category')

# 进行分组操作
grouped = df.groupby('category')['value'].mean()
print(grouped)

这个例子展示了如何将分组列转换为categorical类型，这在处理大型数据集时可以显著提高性能。

5.2 使用numba加速

对于自定义聚合函数，我们可以使用numba来加速计算：

import pandas as pd
import numpy as np
from numba import jit

# 创建示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A', 'B'] * 1000000,
    'value': np.random.rand(6000000)
}
df = pd.DataFrame(data)

# 使用numba加速的自定义聚合函数
@jit(nopython=True)
def custom_agg_numba(values):
    return (np.mean(values) + np.median(values)) / 2

# 应用加速后的函数
grouped = df.groupby('category')['value'].agg(custom_agg_numba)
print(grouped)

这个例子展示了如何使用numba来加速自定义聚合函数，这在处理大型数据集时特别有用。

6. 实际应用案例

让我们通过一些实际应用案例来深入理解GroupBy和平均值计算的结合使用。

6.1 销售数据分析

假设我们有一个电子商务网站的销售数据：

import pandas as pd
import numpy as np

# 创建示例销售数据
np.random.seed(0)
dates = pd.date_range(start='2023-01-01', end='2023-12-31', freq='D')
products = ['Laptop', 'Smartphone', 'Tablet', 'Headphones']
data = {
    'date': np.repeat(dates, len(products)),
    'product': products * len(dates),
    'sales': np.random.randint(1, 100, size=len(dates) * len(products)),
    'price': np.random.uniform(100, 1000, size=len(dates) * len(products))
}
df = pd.DataFrame(data)

# 计算每个产品的平均销售量和平均价格
product_summary = df.groupby('product').agg({
    'sales': 'mean',
    'price': 'mean'
})
print("Product Summary:")
print(product_summary)

# 计算每月的总销售额
df['total_sales'] = df['sales'] * df['price']
monthly_sales = df.groupby(df['date'].dt.to_period('M'))['total_sales'].sum()
print("\nMonthly Sales:")
print(monthly_sales)

Output:

Pandas GroupBy 和平均值计算：数据分析利器

这个例子展示了如何分析销售数据，包括计算每个产品的平均销售量和价格，以及每月的总销售额。

6.2 学生成绩分析

假设我们有一组学生的成绩数据：

import pandas as pd
import numpy as np

# 创建示例学生成绩数据
np.random.seed(0)
subjects = ['Math', 'Science', 'English', 'History']
students = ['Alice', 'Bob', 'Charlie', 'David', 'Eve'] * 4
data = {
    'student': students,
    'subject': subjects * 5,
    'score': np.random.randint(60, 100, size=20)
}
df = pd.DataFrame(data)

# 计算每个学生的平均分
student_avg = df.groupby('student')['score'].mean().sort_values(ascending=False)
print("Student Averages:")
print(student_avg)

# 计算每个科目的平均分
subject_avg = df.groupby('subject')['score'].mean().sort_values(ascending=False)
print("\nSubject Averages:")
print(subject_avg)

# 找出每个学生的最佳科目
best_subject = df.loc[df.groupby('student')['score'].idxmax()]
print("\nBest Subject for Each Student:")
print(best_subject[['student', 'subject', 'score']])

Output:

Pandas GroupBy 和平均值计算：数据分析利器

这个例子展示了如何分析学生成绩数据，包括计算每个学生的平均分、每个科目的平均分，以及找出每个学生的最佳科目。

6.3 股票数据分析

假设我们有一些股票的历史价格数据：

import pandas as pd
import numpy as np

# 创建示例股票数据
np.random.seed(0)
dates = pd.date_range(start='2023-01-01', end='2023-12-31', freq='B')
stocks = ['AAPL', 'GOOGL', 'MSFT', 'AMZN']
data = {
    'date': np.repeat(dates, len(stocks)),
    'stock': stocks * len(dates),
    'price': np.random.uniform(100, 1000, size=len(dates) * len(stocks))
}
df = pd.DataFrame(data)

# 计算每只股票的平均价格
avg_price = df.groupby('stock')['price'].mean().sort_values(ascending=False)
print("Average Stock Prices:")
print(avg_price)

# 计算每只股票的月度收益率
df['monthly_return'] = df.groupby('stock')['price'].pct_change(periods=20)
monthly_returns = df.groupby(['stock', df['date'].dt.to_period('M')])['monthly_return'].last()
print("\nMonthly Returns:")
print(monthly_returns.unstack())

# 找出表现最好的股票（基于平均月度收益率）
best_stock = monthly_returns.groupby('stock').mean().idxmax()
print(f"\nBest Performing Stock: {best_stock}")

Output:

Pandas GroupBy 和平均值计算：数据分析利器

这个例子展示了如何分析股票数据，包括计算每只股票的平均价格、月度收益率，以及找出表现最好的股票。

7. 处理大规模数据

当处理大规模数据时，GroupBy操作可能会变得很慢。以下是一些处理大规模数据的技巧：

7.1 使用chunks处理大文件

当数据文件太大无法一次性加载到内存时，我们可以使用chunks来分批处理：

import pandas as pd

# 假设我们有一个大型CSV文件 'large_data.csv'
chunk_size = 100000  # 每次读取的行数
total = pd.DataFrame()  # 用于存储结果

for chunk in pd.read_csv('pandasdataframe.com/large_data.csv', chunksize=chunk_size):
    # 对每个chunk进行处理
    processed = chunk.groupby('category')['value'].mean()
    total = total.add(processed, fill_value=0)

# 计算最终的平均值
final_result = total / (total.index.value_counts())
print(final_result)

这个例子展示了如何使用chunks来处理大型CSV文件，逐步计算分组平均值。

7.2 使用dask进行并行处理

对于非常大的数据集，我们可以使用dask库来进行并行处理：

import dask.dataframe as dd

# 读取大型CSV文件
df = dd.read_csv('pandasdataframe.com/large_data.csv')

# 进行分组操作
result = df.groupby('category')['value'].mean().compute()
print(result)

这个例子展示了如何使用dask来处理大型数据集，dask可以自动进行并行计算，提高处理速度。

8. 高级GroupBy技巧

8.1 使用agg()进行多种聚合

agg()方法允许我们同时应用多种聚合函数：

import pandas as pd

# 创建示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'value1': [10, 20, 15, 25, 12, 22],
    'value2': [100, 200, 150, 250, 120, 220]
}
df = pd.DataFrame(data)

# 使用agg()进行多种聚合
result = df.groupby('category').agg({
    'value1': ['mean', 'median', 'std'],
    'value2': ['min', 'max', 'sum']
})
print(result)

Output:

Pandas GroupBy 和平均值计算：数据分析利器

这个例子展示了如何使用agg()方法同时应用多种聚合函数到不同的列。

8.2 使用apply()进行复杂操作

对于更复杂的操作，我们可以使用apply()方法：

import pandas as pd

# 创建示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'value': [10, 20, 15, 25, 12, 22]
}
df = pd.DataFrame(data)

# 定义复杂操作函数
def complex_operation(group):
    return pd.Series({
        'mean': group['value'].mean(),
        'median': group['value'].median(),
        'range': group['value'].max() - group['value'].min()
    })

# 使用apply()应用复杂操作
result = df.groupby('category').apply(complex_operation)
print(result)

这个例子展示了如何使用apply()方法来执行更复杂的分组操作。

9. 处理时间序列数据

在处理时间序列数据时，GroupBy操作特别有用：

9.1 重采样和聚合

import pandas as pd
import numpy as np

# 创建示例时间序列数据
dates = pd.date_range(start='2023-01-01', end='2023-12-31', freq='H')
data = {
    'timestamp': dates,
    'value': np.random.randn(len(dates))
}
df = pd.DataFrame(data)

# 按天重采样并计算平均值
daily_avg = df.set_index('timestamp').resample('D')['value'].mean()
print("Daily Average:")
print(daily_avg)

# 按月重采样并计算多个统计量
monthly_stats = df.set_index('timestamp').resample('M').agg({
    'value': ['mean', 'std', 'min', 'max']
})
print("\nMonthly Statistics:")
print(monthly_stats)

这个例子展示了如何对时间序列数据进行重采样和聚合，包括计算每日平均值和每月的多个统计量。

9.2 滚动窗口计算

import pandas as pd
import numpy as np

# 创建示例时间序列数据
dates = pd.date_range(start='2023-01-01', end='2023-12-31', freq='D')
data = {
    'date': dates,
    'value': np.random.randn(len(dates))
}
df = pd.DataFrame(data)

# 计算7天滚动平均
df['7d_rolling_avg'] = df['value'].rolling(window=7).mean()

# 计算30天滚动标准差
df['30d_rolling_std'] = df['value'].rolling(window=30).std()

print(df.head(10))

Output:

Pandas GroupBy 和平均值计算：数据分析利器

这个例子展示了如何使用滚动窗口来计算移动平均和移动标准差。

10. 结合其他Pandas功能

GroupBy操作可以与其他Pandas功能结合使用，以进行更复杂的数据分析：

10.1 结合merge操作

import pandas as pd

# 创建示例数据
sales_data = pd.DataFrame({
    'product': ['A', 'B', 'C', 'A', 'B', 'C'],
    'sales': [100, 200, 150, 120, 180, 210]
})

product_info = pd.DataFrame({
    'product': ['A', 'B', 'C'],
    'category': ['Electronics', 'Clothing', 'Books']
})

# 计算每个产品的平均销售额
avg_sales = sales_data.groupby('product')['sales'].mean().reset_index()

# 合并产品信息
result = pd.merge(avg_sales, product_info, on='product')

print(result)

Output:

Pandas GroupBy 和平均值计算：数据分析利器

这个例子展示了如何将GroupBy操作的结果与其他数据框进行合并。

10.2 结合pivot_table

import pandas as pd
import numpy as np

# 创建示例数据
data = {
    'date': pd.date_range(start='2023-01-01', end='2023-12-31', freq='D'),
    'product': np.random.choice(['A', 'B', 'C'], size=365),
    'sales': np.random.randint(50, 200, size=365)
}
df = pd.DataFrame(data)

# 使用pivot_table创建交叉表
pivot = pd.pivot_table(df, values='sales', index='product', columns=df['date'].dt.month, aggfunc='mean')

print(pivot)

Output:

Pandas GroupBy 和平均值计算：数据分析利器