pandas groupby 字符串|极客教程

pandas groupby 字符串

在数据处理和分析中，我们经常需要对数据进行分组操作，然后对每个组进行相应的统计分析。而pandas中的groupby方法是一个非常强大且灵活的工具，可以方便地实现数据分组后的操作。在本文中，我们将重点介绍如何使用groupby方法进行字符串类型的分组操作。

1. 数据准备

首先，我们需要准备一些示例数据来演示groupby方法的使用。假设我们有一个包含学生信息的数据集，其中包括学生姓名和对应的科目成绩，数据如下：

import pandas as pd

data = {
    '姓名': ['张三', '李四', '张三', '王五', '李四', '王五'],
    '科目': ['数学', '数学', '语文', '数学', '语文', '数学'],
    '成绩': [85, 90, 88, 79, 92, 87]
}

df = pd.DataFrame(data)
print(df)

运行以上代码，我们会得到如下的数据表格：

   姓名  科目  成绩
0  张三  数学  85
1  李四  数学  90
2  张三  语文  88
3  王五  数学  79
4  李四  语文  92
5  王五  数学  87

2. 使用`groupby`方法进行字符串分组

接下来，我们将演示如何使用groupby方法对字符串类型的数据进行分组。在本例中，我们将根据学生姓名进行分组，然后计算每个学生的平均成绩。

grouped = df.groupby('姓名')
for name, group in grouped:
    print(name)
    print(group)

运行以上代码，我们可以看到将数据按照姓名进行分组后的结果：

张三
   姓名  科目  成绩
0  张三  数学  85
2  张三  语文  88

李四
   姓名  科目  成绩
1  李四  数学  90
4  李四  语文  92

王五
   姓名  科目  成绩
3  王五  数学  79
5  王五  数学  87

3. 对分组后的数据进行统计分析

在上一步中，我们已经成功地根据学生姓名进行了分组操作。接下来，我们可以对每个分组进行统计分析，比如计算每个学生的平均成绩：

mean_score = grouped['成绩'].mean()
print(mean_score)

运行以上代码，我们可以得到每个学生的平均成绩：

姓名
张三    86.5
李四    91.0
王五    83.0
Name: 成绩, dtype: float64

4. 多列分组操作

除了根据单一列进行分组外，我们还可以根据多列进行分组操作。比如，我们可以根据学生姓名和科目进行分组，然后计算每个学生在每个科目上的平均成绩：

grouped = df.groupby(['姓名', '科目'])
mean_score = grouped['成绩'].mean()
print(mean_score)

运行以上代码，我们可以得到每个学生在每个科目上的平均成绩：

姓名  科目
张三  数学    85.0
     语文    88.0
李四  数学    90.0
     语文    92.0
王五  数学    83.0
Name: 成绩, dtype: float64

5. 小结

在本文中，我们详细介绍了如何使用pandas的groupby方法对字符串类型的数据进行分组操作。通过对示例数据的处理，我们演示了根据单一列和多列进行分组的操作，并对分组后的数据进行统计分析。groupby方法的灵活性和强大性，使得对数据进行分组操作变得更加简单和高效。

pandas groupby 字符串