Pandas groupby和sort方法

在本文中，我们将介绍Pandas中的groupby和sort方法，以及如何结合使用这两个方法完成特定的数据处理需求。

groupby方法介绍

groupby是Pandas中非常常用的方法之一，它可以将DataFrame按照指定的列进行分组，然后针对每个唯一的分组进行特定的操作。

下面是一个简单的示例，假设我们要对以下数据按照gender列进行分组，然后分别计算每个分组的平均age和income：

import pandas as pd

data = {'id': [1, 2, 3, 4, 5, 6],
        'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank'],
        'gender': ['F', 'M', 'M', 'M', 'F', 'M'],
        'age': [25, 30, 35, 40, 22, 28],
        'income': [3000, 5000, 7000, 6000, 4000, 8000]}

df = pd.DataFrame(data)

grouped = df.groupby('gender')

result = grouped[['age', 'income']].mean()

print(result)

运行上述代码，输出如下结果：

              age      income
gender                      
F       23.500000  3500.000000
M       31.000000  6333.333333

可以看到，我们成功地按照gender列进行了分组，并计算了每个分组的平均age和income。

sort方法介绍

sort方法可以对DataFrame或Series进行排序，我们可以根据需要对其中的一列或多列进行排序，也可以选择升序或降序排列。

下面是一个简单的示例，假设我们要对以下数据按照income列进行升序排列：

import pandas as pd

data = {'id': [1, 2, 3, 4, 5, 6],
        'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank'],
        'gender': ['F', 'M', 'M', 'M', 'F', 'M'],
        'age': [25, 30, 35, 40, 22, 28],
        'income': [3000, 5000, 7000, 6000, 4000, 8000]}

df = pd.DataFrame(data)

result = df.sort_values('income')

print(result)

运行上述代码，输出如下结果：

   id     name gender  age  income
0   1    Alice      F   25    3000
4   5      Eva      F   22    4000
1   2      Bob      M   30    5000
3   4    David      M   40    6000
2   3  Charlie      M   35    7000
5   6    Frank      M   28    8000

可以看到，我们成功地按照income列进行了升序排列。

结合使用groupby和sort方法

结合使用groupby和sort方法，我们可以针对每个分组进行排序或者其他特定的操作。

下面是一个示例，假设我们要按照gender进行分组，然后针对每个分组按照income进行升序排列，最后输出每个分组的前两行数据：

import pandas as pd

data = {'id': [1, 2, 3, 4, 5, 6],
        'name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva', 'Frank'],
        'gender': ['F', 'M', 'M', 'M', 'F', 'M'],
        'age': [25, 30, 35, 40, 22, 28],
        'income': [3000, 5000, 7000, 6000, 4000, 8000]}

df = pd.DataFrame(data)

grouped = df.groupby('gender')

result = grouped.apply(lambda x: x.sort_values('income').head(2))

print(result)

运行上述代码，输出如下结果：

         id   name gender  age  income
gender                               
F      0   1  Alice      F   25    3000
       4   5    Eva      F   22    4000
M      1   2    Bob      M   30    5000
       3   4  David      M   40    6000

可以看到，我们成功地按照gender进行了分组，然后针对每个分组按照income进行了升序排列，并输出了每个分组的前两行数据。