Pandas 使用groupby计算唯一值的个数

在本文中，我们将介绍如何使用 Pandas 中的 groupby 函数来计算唯一值的个数。

作为数据分析师或研究人员，经常需要从海量数据中获取有用的信息。例如，我们想要计算某个列中每个唯一值的个数，这时候就可以使用 Pandas 的 groupby 函数来对数据进行分组，然后统计每个组中唯一值的个数。

下面假设我们有一个汽车销售的数据集，其中包括汽车品牌、销售数量和销售额等信息。我们想要计算某个品牌的销售数量和销售额，以及销售数量和销售额的唯一值的个数。

首先，我们需要导入 Pandas 库和数据集：

import pandas as pd

# 导入数据集
car_sales_data = pd.read_csv("car_sales.csv")

阅读更多：Pandas 教程

1. 分组并计算唯一值的个数

使用 Pandas 的 groupby 函数可以将数据按照指定列进行分组，然后对每个分组进行操作。例如，下面的代码将数据按照汽车品牌进行分组，并计算每个品牌的销售数量和销售额：

# 按照汽车品牌进行分组，并计算每个品牌的销售数量和销售额
sales_by_brand = car_sales_data.groupby("Brand")["Quantity", "Sales"].sum()

上述代码中，groupby("Brand") 指定了按照汽车品牌进行分组，["Quantity", "Sales"].sum() 指定了需要计算的列以及计算方法（sum 表示求和）。

接下来，我们再使用 Pandas 的 nunique 函数来计算每个分组中唯一值的个数。例如，下面的代码将计算每个品牌的销售数量和销售额的唯一值的个数：

# 计算每个品牌的销售数量和销售额的唯一值的个数
unique_sales_by_brand = car_sales_data.groupby("Brand")["Quantity", "Sales"].nunique()

上述代码中，nunique() 指定了需要计算唯一值的列，结果是一个 DataFrame，其中每一行表示一个品牌，每一列表示一个计算的结果。

2. 整合唯一值的个数

以上的代码已经计算了每个品牌的销售数量和销售额的唯一值的个数，但是这些唯一值的个数是分散在多个 DataFrame 中的。为了方便分析，我们可以将这些唯一值的个数整合到同一个 DataFrame 中。例如，下面的代码将 sales_by_brand 和 unique_sales_by_brand 合并到一个 DataFrame 中：

# 将 sales_by_brand 和 unique_sales_by_brand 合并到一个 DataFrame 中
sales_summary = pd.concat([sales_by_brand, unique_sales_by_brand], axis=1, keys=["Sales", "Unique"])

上述代码中，pd.concat([sales_by_brand, unique_sales_by_brand], axis=1, keys=["Sales", "Unique"]) 表示对两个 DataFrame 进行拼接。其中，axis=1 表示按列拼接，keys=["Sales", "Unique"] 表示对拼接后的每一列进行命名。

3. 计算唯一值的比例

上述代码已经计算了每个品牌的销售数量和销售额的唯一值的个数，并将结果整合到了同一个 DataFrame 中。但是，唯一值的个数难以直接用来比较不同分组之间的差异。为了更方便地比较唯一值在不同分组中的比例，我们可以计算唯一值的比例，即唯一值的个数除以分组总数的比例。例如，下面的代码将计算每个品牌的销售数量和销售额的唯一值的比例：

# 计算每个品牌的销售数量和销售额的唯一值的比例
unique_sales_percent = unique_sales_by_brand.div(sales_by_brand)*100
unique_sales_percent.columns = pd.MultiIndex.from_product([["Unique %"], unique_sales_percent.columns])

上述代码中，div(sales_by_brand) 表示对 unique_sales_by_brand 中的每个值除以 sales_by_brand 中的对应值，再乘以 100。pd.MultiIndex.from_product([["Unique %"], unique_sales_percent.columns]) 表示对结果进行多层列索引命名。

最终，我们可以将数据整合到一个 DataFrame 中进行展示，例如：

# 将所有数据整合到一个 DataFrame 中
sales_summary = pd.concat([sales_summary, unique_sales_percent], axis=1)

总结

本文介绍了如何使用 Pandas 的 groupby 函数来计算唯一值的个数。具体来说，我们以汽车销售数据为例，演示了如何对品牌进行分组，并计算每个品牌的销售数量和销售额，以及销售数量和销售额的唯一值的个数和比例等信息。通过本文的介绍，相信读者已经掌握了在 Pandas 中使用 groupby 函数计算唯一值的技巧，能够更好地应用到实际的数据分析中。