pandas dataframe groupby|极客教程

pandas dataframe groupby

在数据分析和处理中，pandas是一个非常强大的Python库，可以帮助我们进行数据的清洗、转换、分析和可视化。pandas中的DataFrame对象可以看作是一个二维的表格，类似于Excel中的一个工作表，我们可以在其中存储和处理数据。在实际的数据分析工作中，经常需要对数据进行分组、聚合、过滤等操作，而groupby方法就是一个非常重要的工具，可以快速高效地进行这些操作。

1. groupby方法的基本用法

groupby方法可以根据指定的列对数据进行分组，并对每个分组进行聚合操作。让我们首先创建一个示例数据集，并演示groupby方法的基本用法：

import pandas as pd

data = {
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar'],
    'B': ['one', 'one', 'two', 'two', 'one', 'one'],
    'C': [1, 2, 3, 4, 5, 6],
    'D': [10, 20, 30, 40, 50, 60]
}

df = pd.DataFrame(data)
print(df)

运行以上代码，我们可以得到以下示例数据集：

     A    B  C   D
0  foo  one  1  10
1  bar  one  2  20
2  foo  two  3  30
3  bar  two  4  40
4  foo  one  5  50
5  bar  one  6  60

接下来，我们使用groupby方法对数据进行分组，并计算每个分组的求和：

grouped = df.groupby('A').sum()
print(grouped)

运行以上代码，我们可以得到结果：

       C    D
A            
bar   12  120
foo    9   90

从上面的结果可以看出，通过groupby方法将数据按照’A’列进行分组，然后对’C’和’D’列进行求和操作，得到了每个分组的求和结果。

2. 多列分组

除了根据单个列进行分组外，我们也可以根据多个列进行分组。让我们使用一个新的示例数据集来演示多列分组的用法：

data = {
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar'],
    'B': ['one', 'one', 'two', 'two', 'one', 'one'],
    'C': [1, 2, 3, 4, 5, 6],
    'D': [10, 20, 30, 40, 50, 60]
}

df = pd.DataFrame(data)
print(df)

运行以上代码，我们可以得到以下示例数据集：

     A    B  C   D
0  foo  one  1  10
1  bar  one  2  20
2  foo  two  3  30
3  bar  two  4  40
4  foo  one  5  50
5  bar  one  6  60

接下来，我们使用groupby方法对’A’和’B’列进行分组，并计算每个分组的平均值：

grouped = df.groupby(['A', 'B']).mean()
print(grouped)

运行以上代码，我们可以得到结果：

              C     D
A   B                
bar one     4.0  40.0
    two     4.0  40.0
foo one     3.0  30.0
    two     3.0  30.0

从上面的结果可以看出，通过groupby方法将数据按照’A’和’B’列进行分组，然后对’C’和’D’列进行平均值操作，得到了每个分组的平均值结果。

3. 自定义聚合函数

除了使用内置的聚合函数外，我们也可以自定义聚合函数进行操作。让我们定义一个自定义的聚合函数，用来计算每个分组的最大值减去最小值：

data = {
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar'],
    'B': ['one', 'one', 'two', 'two', 'one', 'one'],
    'C': [1, 2, 3, 4, 5, 6],
    'D': [10, 20, 30, 40, 50, 60]
}

df = pd.DataFrame(data)
print(df)

运行以上代码，我们可以得到以下示例数据集：

     A    B  C   D
0  foo  one  1  10
1  bar  one  2  20
2  foo  two  3  30
3  bar  two  4  40
4  foo  one  5  50
5  bar  one  6  60

接下来，我们定义一个自定义的聚合函数，并将其应用到数据分组上：

def custom_agg(x):
    return x.max() - x.min()

grouped = df.groupby('A').agg(custom_agg)
print(grouped)

运行以上代码，我们可以得到结果：

从上面的结果可以看出，我们自定义的聚合函数计算了每个分组的最大值减去最小值，并得到了结果。

4. 对分组进行迭代

我们还可以对分组进行迭代，对每个分组中的数据进行操作。让我们使用一个新的示例数据集，并演示对分组进行迭代的方法：

data = {
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar'],
    'B': ['one', 'one', 'two', 'two', 'one', 'one'],
    'C': [1, 2, 3, 4, 5, 6],
    'D': [10, 20, 30, 40, 50, 60]
}

df = pd.DataFrame(data)
print(df)

运行以上代码，我们可以得到以下示例数据集：

     A    B  C   D
0  foo  one  1  10
1  bar  one  2  20
2  foo  two  3  30
3  bar  two  4  40
4  foo  one  5  50
5  bar  one  6  60

接下来，我们对分组进行迭代，并打印每个分组的数据：

grouped = df.groupby('A')

for name, group in grouped:
    print(f'Group: {name}')
    print(group)
    print()

运行以上代码，我们可以得到结果：

Group: bar
     A    B  C   D
1  bar  one  2  20
3  bar  two  4  40
5  bar  one  6  60

Group: foo
     A    B  C   D
0  foo  one  1  10
2  foo  two  3  30
4  foo  one  5  50

从上面的结果可以看出，我们对分组进行了迭代，并打印了每个分组的数据。

5. 过滤分组数据

在实际数据分析中，有时候我们需要根据某些条件过滤分组数据。让我们使用一个新的示例数据集，并演示如何过滤分组数据：

data = {
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar'],
    'B': ['one', 'one', 'two', 'two', 'one', 'one'],
    'C': [1, 2, 3, 4, 5, 6],
    'D': [10, 20, 30, 40, 50, 60]
}

df = pd.DataFrame(data)
print(df)

运行以上代码，我们可以得到以下示例数据集：

     A    B  C   D
0  foo  one  1  10
1  bar  one  2  20
2  foo  two  3  30
3  bar  two  4  40
4  foo  one  5  50
5  bar  one  6  60

接下来，我们定义一个过滤函数，只保留’C’列的和大于5的分组数据：

def filter_func(x):
    return x['C'].sum() > 5

grouped = df.groupby('A').filter(filter_func)
print(grouped)

运行以上代码，我们可以得到结果：

     A    B  C   D
0  foo  one  1  10
2  foo  two  3  30
4  foo  one  5  50

从上面的结果可以看出，我们根据条件过滤了分组数据，只保留了’C’列的和大于5的分组数据。

通过本文的介绍，我们了解了pandas中groupby方法的基本用法，包括单列分组、多列分组、自定义聚合函数、对分组进行迭代和过滤分组数据等操作。groupby方法是数据分析中非常常用且强大的工具，能够帮助我们高效地对数据进行分组、聚合和分析，提升数据处理的效率和准确性。感兴趣的读者可以结合实际项目，进一步深入学习和应用groupby方法，提升数据分析能力和效率。