使用Pandas查找分组行中的最小值

在本文中，我们将介绍如何使用Pandas来查找分组行中的最小值。这是在数据分析和数据科学中常见的操作之一。我们将首先讨论一些相关的概念，然后介绍如何使用Pandas来执行这个任务。

阅读更多：Numpy 教程

分组和聚合

把数据分组并对每个组应用聚合函数是数据分析中一个重要的操作。在Pandas中，可以使用groupby() 方法将数据按照一个或多个列进行分组，并应用一个聚合函数。常见的聚合函数包括 min() , max() , mean() , sum() 等。

下面是一个例子，展示如何对数据进行分组，并计算每个组的最小值。

import pandas as pd
import numpy as np

data = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob', 'Charlie'],
    'score': [80, 90, 70, 75, 85, 95]
})

grouped = data.groupby('name')
result = grouped.min()

print(result)

这段代码将数据按照 name 列进行分组，并计算每个组中 score 列的最小值。输出结果如下：

         score
name          
Alice       75
Bob         85
Charlie     70

查找分组行中的最小值

现在我们来考虑如何找到每个分组中的最小值所在的行。假设我们有以下数据：

import pandas as pd
import numpy as np

data = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob', 'Charlie'],
    'score': [80, 90, 70, 75, 85, 95],
    'age': [21, 25, 30, 22, 24, 28]
})

grouped = data.groupby('name')
result = grouped.min()

print(result)

输出结果为：

         score  age
name              
Alice       75   21
Bob         85   24
Charlie     70   28

现在我们想要找到每行最小值所在的 age 列的值。我们可以使用以下代码：

idx = data.groupby('name')['score'].transform(min) == data['score']
result = data[idx][['name', 'age']]

首先，我们使用 groupby() 方法按照 name 列进行分组，并计算每个组中 score 列的最小值。然后，我们使用 transform() 方法将每个组中的最小值“广播”到整个组，并与 score 列进行比较。这将生成一个布尔数组，指示哪些行是每个组的最小值所在的行。最后，我们从原始数据中选择这些行，并提取 name 和 age 列。

示例：查找每个组中的最小值所在的行

现在我们来看一个更复杂的例子。假设我们有以下数据：

import pandas as pd
import numpy as np

data = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie', 'Alice', 'Bob', 'Charlie'],
    'subject': ['Math', 'Math', 'Math', 'English', 'English', 'English'],
    'score': [80, 90, 70, 75, 85, 95],
    'age': [21, 25, 30, 22, 24, 28]
})

grouped = data.groupby(['name', 'subject'])
result = grouped.min()

print(result)

输出结果为：

               score  age
name    subject          
Alice   English    75   22
        Math       80   21
Bob     English    85   24
        Math       90   25
Charlie English    95   28
        Math       70   30

现在我们想要找到每个组中 score 列的最小值所在的行，我们可以使用以下代码：

idx = data.groupby(['name', 'subject'])['score'].transform(min) == data['score']
result = data[idx][['name', 'subject', 'age']]

这段代码的思路和之前的例子类似。我们首先使用 groupby() 方法按照 name 和 subject 列进行分组，并计算每个组中 score 列的最小值。然后我们使用 transform() 方法将每个组中的最小值“广播”到整个组，并与 score 列进行比较。这将生成一个布尔数组，指示哪些行是每个组的最小值所在的行。最后我们从原始数据中选择这些行，并提取 name、subject 和 age 列。

输出结果为：

       name  subject  age
3     Alice  English   22
0     Alice     Math   21
4       Bob  English   24
1       Bob     Math   25
5   Charlie  English   28
2   Charlie     Math   30

注意到，现在我们得到了每个分组中最小值所在的行，而不仅仅是最小值。这些行中的 age 列就是我们要找的结果。