Pandas 为 DataFrame 每个分组枚举每个行数

在本文中，我们将介绍如何使用 pandas 的 enumerate 方法为每个分组中的 DataFrame 枚举每一行。

假设我们有一个示例数据集如下：

import pandas as pd

data = {'group': ['A', 'A', 'A', 'B', 'B', 'C', 'C'],
        'value': [1, 1, 2, 3, 4, 5, 5]}
df = pd.DataFrame(data)

print(df)

  group  value
0     A      1
1     A      1
2     A      2
3     B      3
4     B      4
5     C      5
6     C      5

我们希望为每个组进行编号，并且将该组中每行的编号作为新列。

阅读更多：Pandas 教程

方法1：使用 apply 和 groupby

我们可以使用 apply 和 groupby 方法来实现：

def enumerate_rows(group):
    group['row_number'] = range(1, len(group) + 1)
    return group

df = df.groupby('group').apply(enumerate_rows)

print(df)

  group  value  row_number
0     A      1           1
1     A      1           2
2     A      2           3
3     B      3           1
4     B      4           2
5     C      5           1
6     C      5           2

该方法首先定义了一个在 apply 中要使用的函数 enumerate_rows ，该函数接收一个 DataFrame 作为输入，为该分组创建新的列 ‘row_number’ ，并为其中的每一行分配一个编号。然后，我们使用该函数与 groupby 方法将 DataFrame 分组，并将该函数应用于每个组。

方法2：使用 cumcount 方法

另一种实现方式是使用 pandas 的 cumcount 方法。该方法将对 DataFrame 的每个分组返回每行的累计计数值。我们可以利用这个值来为每个分组枚举每个行号。

df['row_number'] = df.groupby('group').cumcount() + 1

print(df)

  group  value  row_number
0     A      1           1
1     A      1           2
2     A      2           3
3     B      3           1
4     B      4           2
5     C      5           1
6     C      5           2

方法3：使用 rank 方法

还有一种实现方式是使用 pandas 的 rank 方法。rank 方法将为每个 DataFrame 中的值计算秩，这意味着如果有相同的值，则它们将分配相同的秩。在这种情况下，我们可以先通过 groupby 将 DataFrame 按组分组，然后对每个组的值进行排名，将排名结果作为新列插入 DataFrame 中。

df['row_number'] = df.groupby('group')['value'].rank(method='first')

print(df)

  group  value  row_number
0     A      1         1.0
1     A      1         2.0
2     A      2         3.0
3     B      3         1.0
4     B      4         2.0
5     C      5         1.0
6     C      5         2.0