pandas 求每行的唯一值|极客教程

pandas 求每行的唯一值

在数据分析和处理过程中，经常会遇到需要统计每一行的唯一值的情况。例如，在处理用户数据时，可能需要统计每个用户的购买记录中不同商品的数量；或者在处理文本数据时，需要统计每篇文章中不重复的单词个数。

Pandas 是一个功能强大的数据处理库，提供了丰富的功能来处理数据。在 Pandas 中，我们可以使用 apply 方法结合 lambda 函数快速计算每行的唯一值。

示例

假设我们有如下的数据集，表示 3 个用户的购买记录：

import pandas as pd

data = {
    'user_id': [1, 2, 3],
    'items': [['apple', 'banana', 'orange'], ['apple', 'grape', 'banana'], ['grape', 'orange']]
}

df = pd.DataFrame(data)
print(df)

运行以上代码，将得到如下的数据集：

   user_id                    items
0        1  [apple, banana, orange]
1        2   [apple, grape, banana]
2        3          [grape, orange]

现在，我们希望统计每个用户购买的不同商品个数。我们可以使用 apply 方法和 lambda 函数来实现：

df['unique_items_count'] = df['items'].apply(lambda x: len(set(x)))
print(df)

运行以上代码，将得到包含每个用户购买的不同商品个数的新列：

   user_id                    items  unique_items_count
0        1  [apple, banana, orange]                   3
1        2   [apple, grape, banana]                   3
2        3          [grape, orange]                   2

通过以上方法，我们成功统计出了每个用户购买的不同商品个数。在这个示例中，我们使用了 lambda 函数来对每行的商品列表进行处理，计算其不同值的个数并赋值给新列。

除了对列表进行处理，我们也可以对字符串等其他数据类型进行相似的操作。通过合理运用 Pandas 的功能，可以快速、方便地处理各种数据统计问题。

结论

通过本文的介绍，我们学习了如何使用 Pandas 求每行的唯一值。结合 apply 方法和 lambda 函数，我们可以方便地对数据进行处理，得到我们想要的结果。在实际工作中，这种方法非常有用，可以帮助我们快速解决各种数据处理和分析问题。如果你也遇到类似的问题，不妨尝试使用 Pandas 来处理，相信会带来意想不到的便利和效果。