Pandas groupby: 如何获取字符串的并集

在本文中，我们将介绍如何使用Pandas的groupby函数来获取字符串的并集。在数据分析和处理中，经常需要用到groupby函数来对数据进行分组处理，然后再求取一些汇总统计量。当数据集中包含字符串类型的数据时，有时候需要对这些字符串进行合并去重，然后求出并集，这个时候就可以使用groupby函数来实现。

阅读更多：Pandas 教程

数据准备

首先我们先准备一些带有字符串类型数据的数据集，以便于进行演示和实践。这里我们使用Python的随机函数生成一些数据并利用Pandas来存储。

import pandas as pd
import numpy as np

# 随机生成5个人的职业
data = pd.DataFrame({'name': ['Tom', 'Jerry', 'Lily', 'Lucy', 'David'],
                     'occupation': [np.random.choice(['teacher', 'student', 'engineer'], 2) for i in range(5)]})

print(data)

输出结果如下：

    name                   occupation
0    Tom          [teacher, engineer]
1  Jerry                 [engineer]
2   Lily           [engineer, student]
3   Lucy   [engineer, teacher, student]
4  David         [teacher, engineer]

可以看到，上面的数据集共有5个人，每个人都有一个名字和一个职业列表，职业列表中也可能有重复的职业。

groupby函数简介

在深入讲解如何获取字符串的并集之前，我们首先来简单介绍一下Pandas的groupby函数。

groupby函数是Pandas中非常常用的一种函数，它可以将一个数据集按照某个或者某些列进行分组，然后对每个组进行一些操作，比如求和、求平均、计数等等。下面就是groupby函数的一般格式：

data.groupby(by, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=False, **kwargs)

其中，by参数是用于分组的依据，可以是单个列名，也可以是多个列名。axis、level、as_index、sort、group_keys和squeeze等参数都是用于控制groupby函数的细节操作。

如何获取字符串的并集

当我们有一个职业列表，并且需要将其中的所有职业合并去重后，再取并集的时候，我们可以通过以下这个简单的函数实现：

def union(x):
    return set.union(*x)

其中，set.union函数可以将多个集合取并集。

然后，我们将该函数应用到groupby函数的结果上，就可以得到职业列表的并集了。完整的代码如下：

data.groupby('name')['occupation'].apply(union)

运行结果如下：

name
David           {engineer, teacher}
Jerry               {engineer}
Lily        {engineer, student}
Lucy    {teacher, engineer, student}
Tom         {engineer, teacher}
Name: occupation, dtype: object

我们可以看到，通过groupby函数和union函数，我们成功地获取到了每个人的职业并集。