Python中的drop_duplicates方法|极客教程

Python中的drop_duplicates方法

在数据处理中，我们经常会遇到重复数据的情况。这些重复数据可能会影响我们的分析结果，因此需要对其进行处理。在Python中，pandas库提供了一个非常方便的方法来处理重复数据，即drop_duplicates方法。

drop_duplicates方法的基本用法

drop_duplicates方法用于移除DataFrame中重复的行。它的基本用法如下所示：

import pandas as pd

data = {'A': [1, 1, 2, 2, 3],
        'B': ['foo', 'foo', 'bar', 'bar', 'baz']}

df = pd.DataFrame(data)
print("Original DataFrame:")
print(df)

df_drop_duplicates = df.drop_duplicates()
print("\nDataFrame after dropping duplicates:")
print(df_drop_duplicates)

运行以上代码，可以看到如下输出：

Original DataFrame:
   A    B
0  1  foo
1  1  foo
2  2  bar
3  2  bar
4  3  baz

DataFrame after dropping duplicates:
   A    B
0  1  foo
2  2  bar
4  3  baz

可以看到，原始DataFrame中存在重复的行(第0和第1行、第2和第3行)已经被删除，得到了一个没有重复数据的新DataFrame。

drop_duplicates方法的参数

drop_duplicates方法还可以接受一些参数，以便我们更好地控制删除重复数据的过程。下面介绍几个常用的参数：

subset参数：可以指定根据哪些列来判断是否为重复行。
keep参数：指定保留哪些重复的行。
inplace参数：指定是否在原DataFrame上进行操作。

import pandas as pd

data = {'A': [1, 1, 2, 2, 3],
        'B': ['foo', 'foo', 'bar', 'bar', 'baz'],
        'C': [1, 2, 3, 1, 2]}

df = pd.DataFrame(data)
print("Original DataFrame:")
print(df)

# 根据'A'列判断是否为重复行
df_subset = df.drop_duplicates(subset='A')
print("\nDataFrame after dropping duplicates based on 'A' column:")
print(df_subset)

# 保留最后出现的重复行
df_keep_last = df.drop_duplicates(keep='last')
print("\nDataFrame after dropping duplicates and keeping last occurrence:")
print(df_keep_last)

# 在原DataFrame上进行操作
df.drop_duplicates(inplace=True)
print("\nOriginal DataFrame after dropping duplicates in place:")
print(df)

运行以上代码，可以看到如下输出：

Original DataFrame:
   A    B  C
0  1  foo  1
1  1  foo  2
2  2  bar  3
3  2  bar  1
4  3  baz  2

DataFrame after dropping duplicates based on 'A' column:
   A    B  C
0  1  foo  1
2  2  bar  3
4  3  baz  2

DataFrame after dropping duplicates and keeping last occurrence:
   A    B  C
1  1  foo  2
3  2  bar  1
4  3  baz  2

Original DataFrame after dropping duplicates in place:
   A    B  C
0  1  foo  1
2  2  bar  3
4  3  baz  2

可以看到，我们可以根据指定的列来判断是否为重复行，也可以选择保留第一次出现的重复行或最后一次出现的重复行。此外，通过设置inplace=True参数，我们也可以直接在原DataFrame上进行操作。