pandas agg函数详解|极客教程

pandas agg函数详解

在数据分析中，聚合函数是非常重要的工具，它们帮助我们从大量数据中提取有价值的统计信息。pandas 是 Python 中一个强大的数据处理库，它提供了丰富的数据结构和数据分析工具，其中 agg 函数是一个非常有用的功能，它允许用户对数据进行多种统计聚合操作。本文将详细介绍 pandas 中的 agg 函数的使用方法，并通过多个示例展示其强大的功能。

1. `agg` 函数基础

agg 函数，也称为聚合函数，是 pandas 中用于数据聚合的主要工具之一。它可以对 DataFrame 或 Series 对象中的数据进行多种统计聚合操作。使用 agg 函数可以一次性计算一个或多个聚合值，如求和、平均值、最大值、最小值等。

示例代码 1：单个聚合函数

import pandas as pd
import numpy as np

# 创建一个示例 DataFrame
df = pd.DataFrame({
    'A': np.random.randn(50),
    'B': np.random.rand(50)
})

# 使用 agg 函数计算列 A 的平均值
result = df['A'].agg('mean')
print(result)

Output:

pandas agg函数详解

示例代码 2：多个聚合函数

import pandas as pd
import numpy as np

# 创建一个示例 DataFrame
df = pd.DataFrame({
    'A': np.random.randn(50),
    'B': np.random.rand(50)
})

# 使用 agg 函数同时计算列 A 的平均值和标准差
result = df['A'].agg(['mean', 'std'])
print(result)

Output:

pandas agg函数详解

2. 在 `DataFrame` 上使用 `agg`

agg 函数不仅可以在 Series 对象上使用，也可以直接在整个 DataFrame 上使用，允许对不同的列应用不同的聚合函数。

示例代码 3：对不同列使用不同的聚合函数

import pandas as pd
import numpy as np

# 创建一个示例 DataFrame
df = pd.DataFrame({
    'A': np.random.randn(50),
    'B': np.random.rand(50),
    'C': np.random.randint(0, 100, 50)
})

# 对不同列使用不同的聚合函数
result = df.agg({
    'A': 'mean',
    'B': 'sum',
    'C': 'max'
})
print(result)

Output:

pandas agg函数详解

示例代码 4：对所有列使用相同的多个聚合函数

import pandas as pd
import numpy as np

# 创建一个示例 DataFrame
df = pd.DataFrame({
    'A': np.random.randn(50),
    'B': np.random.rand(50),
    'C': np.random.randint(0, 100, 50)
})

# 对所有列使用相同的多个聚合函数
result = df.agg(['mean', 'std', 'min', 'max'])
print(result)

Output:

pandas agg函数详解

3. 使用自定义聚合函数

agg 函数的一个强大之处在于它可以接受自定义函数，这使得用户可以根据自己的需求定义特定的聚合逻辑。

示例代码 5：使用自定义聚合函数

import pandas as pd
import numpy as np

# 创建一个示例 DataFrame
df = pd.DataFrame({
    'A': np.random.randn(50),
    'B': np.random.rand(50)
})

# 定义一个自定义聚合函数
def my_agg(x):
    return np.sum(x) / np.sqrt(len(x))

# 使用自定义聚合函数
result = df['A'].agg(my_agg)
print(result)

Output:

pandas agg函数详解

示例代码 6：在多列上使用自定义聚合函数

import pandas as pd
import numpy as np

# 创建一个示例 DataFrame
df = pd.DataFrame({
    'A': np.random.randn(50),
    'B': np.random.rand(50),
    'C': np.random.randint(0, 100, 50)
})

# 使用自定义聚合函数
result = df.agg(my_agg)
print(result)

4. `agg` 函数与其他 `pandas` 函数的结合使用

agg 函数可以与 pandas 中的其他函数如 groupby 结合使用，以实现更复杂的数据聚合操作。

示例代码 7：与 `groupby` 结合使用

import pandas as pd
import numpy as np

# 创建一个示例 DataFrame
df = pd.DataFrame({
    'Key': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B'],
    'Data': np.random.randn(8),
    'Value': np.random.rand(8)
})

# 使用 groupby 和 agg 函数
result = df.groupby('Key').agg({
    'Data': 'mean',
    'Value': ['min', 'max']
})
print(result)

Output:

pandas agg函数详解

示例代码 8：在时间序列数据上使用 `agg`

import pandas as pd
import numpy as np

# 创建一个时间序列 DataFrame
dates = pd.date_range(start='20230101', periods=100)
df = pd.DataFrame({
    'Date': dates,
    'Value': np.random.randn(100)
})

# 设置日期为索引
df.set_index('Date', inplace=True)

# 使用 resample 和 agg 函数
result = df.resample('M').agg('sum')
print(result)

5. 性能考虑

在使用 agg 函数时，尤其是在大数据集上，性能是一个重要的考虑因素。agg 函数通常比单独使用多个独立的统计函数更高效，因为它可以在一次操作中完成多个聚合计算。

示例代码 9：比较 `agg` 函数和多个单独函数的性能

import pandas as pd
import numpy as np

# 创建一个大型 DataFrame
df = pd.DataFrame({
    'A': np.random.randn(100000),
    'B': np.random.rand(100000)
})

# 使用 agg 函数
agg_result = df.agg(['mean', 'std'])

# 使用单独的函数
mean_result = df.mean()
std_result = df.std()

print(agg_result)
print(mean_result)
print(std_result)

Output:

pandas agg函数详解

6. 结论

pandas 的 agg 函数是一个非常强大的工具，它提供了灵活的数据聚合功能，可以显著简化数据分析过程。通过本文的介绍和示例，我们可以看到 agg 函数在处理各种数据聚合需求时的便利性和高效性。无论是在简单的数据集上进行基本的统计计算，还是在复杂的数据集上执行高级的自定义聚合操作，agg 函数都是一个不可或缺的工具。