pandas 唯一值|极客教程

pandas 唯一值

在数据处理过程中，有时我们需要查看某一列数据中的唯一值，或者筛选出某一列数据中的重复值。Pandas 中提供了很方便的方法来处理唯一值，本文将详细介绍如何使用 Pandas 来处理唯一值。

获取唯一值

我们可以使用 unique() 方法来获取 Series 或者 DataFrame 中的唯一值。下面是一个示例：

import pandas as pd

# 创建一个包含重复值的 Series
data = pd.Series([1, 1, 2, 3, 4, 4, 5])

# 获取唯一值
unique_values = data.unique()

print(unique_values)

运行结果：

[1 2 3 4 5]

上面的示例中，我们先创建了一个包含重复值的 Series，然后使用 unique() 方法获取了该 Series 中的唯一值。可以看到，结果中只包含了该 Series 中的唯一值。

统计唯一值的个数

如果我们需要统计某一列数据中不同值的个数，可以使用 value_counts() 方法。下面是一个示例：

import pandas as pd

# 创建一个包含重复值的 Series
data = pd.Series([1, 1, 2, 3, 4, 4, 5])

# 统计唯一值的个数
value_counts = data.value_counts()

print(value_counts)

运行结果：

1    2
4    2
5    1
3    1
2    1
dtype: int64

上面的示例中，我们使用 value_counts() 方法统计了该 Series 中不同值的个数，并且按照值的大小进行了排序。可以看到，结果中包含了每个值及其出现的次数。

删除重复值

有时候我们需要将数据中的重复值删除，可以使用 drop_duplicates() 方法来实现。下面是一个示例：

import pandas as pd

# 创建一个包含重复值的 DataFrame
data = {
    'A': [1, 2, 1, 3],
    'B': ['geek-docs.com', 'geek-docs.com', 'hello', 'world']
}
df = pd.DataFrame(data)

# 删除重复值
df_unique = df.drop_duplicates()

print(df_unique)

运行结果：

   A              B
0  1  geek-docs.com
1  2  geek-docs.com
2  1          hello
3  3          world

上面的示例中，我们创建了一个包含重复值的 DataFrame，然后使用 drop_duplicates() 方法删除了重复值。可以看到，结果中只保留了第一个出现的重复值记录。

判断重复值

有时候我们需要判断数据中是否存在重复值，可以使用 duplicated() 方法来实现。下面是一个示例：

import pandas as pd

# 创建一个包含重复值的 DataFrame
data = {
    'A': [1, 2, 1, 3],
    'B': ['geek-docs.com', 'geek-docs.com', 'hello', 'world']
}
df = pd.DataFrame(data)

# 判断重复值
duplicated = df.duplicated()

print(duplicated)

运行结果：

0    False
1    True
2    False
3    False
dtype: bool

上面的示例中，我们使用 duplicated() 方法判断了该 DataFrame 中是否存在重复值。可以看到，结果中显示了每一行数据是否为重复值的布尔值。

通过以上介绍，我们可以看到 Pandas 提供了很方便的方法来处理唯一值，包括获取唯一值、统计唯一值的个数、删除重复值以及判断重复值等操作。在数据处理过程中，我们可以根据实际需求灵活运用这些方法，提高数据处理的效率。

pandas 唯一值