Pandas Groupby 返回第一行|极客教程

Pandas Groupby 返回第一行

在数据分析中，经常需要对数据进行分组操作，然后对每个分组进行统计分析。Pandas库中的groupby函数可以方便地实现对数据的分组操作。在实际应用中，有时候我们需要返回每个分组的第一行数据，以便对整个分组进行进一步处理。本文将详细介绍如何使用Pandas的groupby函数返回每个分组的第一行数据。

1. 创建示例数据

首先，我们需要创建一个示例数据集进行分组操作。我们使用Pandas库生成一个包含不同城市、月份和销售额的数据集。

import pandas as pd
import numpy as np

data = {
    'City': ['Beijing', 'Shanghai', 'Beijing', 'Shanghai', 'Beijing', 'Shanghai'],
    'Month': [1, 1, 2, 2, 3, 3],
    'Sales': [1000, 2000, 1500, 2500, 1200, 2200]
}

df = pd.DataFrame(data)
print(df)

运行上述代码，我们得到以下示例数据集：

       City  Month  Sales
0   Beijing      1   1000
1  Shanghai      1   2000
2   Beijing      2   1500
3  Shanghai      2   2500
4   Beijing      3   1200
5  Shanghai      3   2200

2. 使用 groupby 返回第一行

接下来，我们将使用Pandas的groupby函数对数据进行分组，并返回每个分组的第一行数据。

grouped = df.groupby('City')
first_rows = grouped.first()
print(first_rows)

在上面的代码中，我们首先使用groupby函数根据’City’列对数据进行分组，然后使用first函数返回每个分组的第一行数据。运行上述代码，我们可以得到每个城市的第一行数据：

          Month  Sales
City                  
Beijing       1   1000
Shanghai      1   2000

从返回的结果可以看出，对于每个城市，我们成功地返回了其第一行数据，即第一个月的销售额。这样，我们可以方便地对每个城市的销售数据进行进一步统计分析。

3. 自定义函数返回第一行

除了使用Pandas内置的first函数外，我们还可以自定义函数来返回第一行数据。下面是一个示例代码：

def get_first_row(group):
    return group.iloc[0]

first_rows_custom = grouped.apply(get_first_row)
print(first_rows_custom)

在上面的代码中，我们定义了一个名为get_first_row的自定义函数，该函数接受一个分组作为参数，并返回该分组的第一行数据。然后，我们使用apply函数将这个自定义函数应用到每个分组上，从而得到每个城市的第一行数据。运行上面的代码，我们可以得到与前面相同的结果。

结论

通过本文的介绍，我们学习了如何使用Pandas的groupby函数返回每个分组的第一行数据。在实际应用中，这个功能可以帮助我们更方便地对分组数据进行数据分析和处理。

Pandas Groupby 返回第一行