pandas 重复数据筛选|极客教程

pandas 重复数据筛选

在数据处理过程中，经常会遇到重复数据的情况，对于这些重复数据的处理，往往需要筛选出来进行进一步处理。在Python中，pandas库是一个强大的数据分析工具，提供了丰富的功能来处理数据，包括重复数据的筛选。本文将详细介绍如何使用pandas来筛选重复数据。

1. 检测重复数据

在pandas中，可以使用duplicated()方法来检测重复数据。该方法返回一个布尔类型的Series，表示每行数据是否重复。接下来，我们通过一个示例来演示如何使用duplicated()方法检测重复数据。

import pandas as pd

data = {'A': [1, 2, 1, 3, 2],
        'B': ['geek-docs.com', 'geek-docs.com', 'geek-docs.com', 'geek-docs.com', 'geek-docs.com']}
df = pd.DataFrame(data)

# 检测重复数据
duplicated = df.duplicated()
print(duplicated)

运行上面的代码，输出如下：

0    False
1    False
2     True
3    False
4     True
dtype: bool

从结果可以看出，第3行和第5行数据为重复数据。

2. 筛选重复数据

一旦检测到重复数据，我们就可以使用drop_duplicates()方法来筛选重复数据。该方法将重复数据去除，并返回一个新的DataFrame。接下来，我们通过一个示例来演示如何使用drop_duplicates()方法筛选重复数据。

import pandas as pd

data = {'A': [1, 2, 1, 3, 2],
        'B': ['geek-docs.com', 'geek-docs.com', 'geek-docs.com', 'geek-docs.com', 'geek-docs.com']}
df = pd.DataFrame(data)

# 筛选重复数据
df_unique = df.drop_duplicates()
print(df_unique)

运行上面的代码，输出如下：

   A              B
0  1  geek-docs.com
1  2  geek-docs.com
3  3  geek-docs.com

可以看到，去除重复数据后，剩下的数据为第1行、第2行和第4行。

3. 自定义重复数据的判断条件

有时候，我们需要根据自定义的条件来判断重复数据。pandas提供了subset参数来实现这一功能。该参数接受一个列名的列表，表示在指定列上判断重复数据。接下来，我们通过一个示例来演示如何使用subset参数自定义判断条件。

import pandas as pd

data = {'A': [1, 2, 1, 3, 2],
        'B': ['geek-docs.com', 'geek-docs.com', 'geek-docs.com', 'geek-docs.com', 'geek-docs.com']}
df = pd.DataFrame(data)

# 自定义判断条件
df_unique = df.drop_duplicates(subset=['A'])
print(df_unique)

运行上面的代码，输出如下：

   A              B
0  1  geek-docs.com
1  2  geek-docs.com
3  3  geek-docs.com

可以看到，根据’A’列来判断重复数据时，剩下的数据为第1行、第2行和第4行。

结语

通过上面的介绍，我们学习了如何使用pandas来检测和筛选重复数据。在实际数据处理中，重复数据往往会对结果产生影响，及时对重复数据进行处理是非常重要的。

pandas 重复数据筛选