Pandas 如何删除多列中所有重复的行

在本文中，我们将介绍如何使用Pandas在Python中删除多列中所有重复的行。

什么是重复行？

当一张表中存在两行或多行的每一列的值都相同的情况，我们就称这些行是重复的。通常，我们需要删除这些重复的行来保证我们的数据集是干净的。

Pandas中删除重复行的方法

在Pandas中，我们可以使用drop_duplicates()方法来删除重复行。下面是示例代码：

import pandas as pd
df = pd.DataFrame({'列1':[1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
                   '列2':['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'],
                   '列3':['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j'],
                   '列4':['x', 'y', 'z', 'x', 'y', 'z', 'x', 'y', 'z', 'x'],
                   '列5':['p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y']})
df.drop_duplicates(['列3','列4'])

这段代码将删除重复的列3和列4，并返回一个新的数据框。

为什么要删除多列中所有重复的行？

在一些情况下，我们需要删除多列中所有重复的行，以便于我们后续的数据分析。

例如，假设我们从一个汽车论坛上抓取到了三个重要信息：车型、生产日期、排量。这三个信息共同描述一辆车辆，同时也是判定一辆车辆是否重复的依据。如果我们只分别根据车型、生产日期、排量单独去重，得到的去重结果可能并不是我们想要的结果。

比如，有可能两辆车型不同但生产日期、排量一样；有可能两辆车生产日期不同但车型、排量一样；还有可能三辆车的车型、生产日期、排量全都相同。如果我们只根据其中一列去重，那么这些被判定为重复的车辆实际上并不是真正重复的数据。

然而，如果我们以三个共同的列为依据，去除所有重复行，那么我们就能得到正确的去重结果。

如何在Pandas中删除多列中所有重复的行？

在 Pandas 中，我们可以通过传递列名的列表来删除多列中所有重复的行。例如，假设我们有一个包含车型、生产日期、排量和售价的数据框：

import pandas as pd
df = pd.DataFrame({'车型':['A', 'B', 'C', 'D', 'E', 'A', 'B'],
                   '生产日期':['2020-10-01', '2020-11-01', '2020-12-01', '2021-01-01', '2021-02-01', '2021-03-01', '2021-04-01'],
                   '排量':[1.5, 1.6, 1.6, 2.0, 2.0, 1.5, 1.6],
                   '售价':[100000, 120000, 110000, 150000, 140000, 100000, 120000]})

然后，我们可以使用drop_duplicates()方法来删除重复行：

df.drop_duplicates(['车型', '生产日期', '排量'], keep='first', inplace=True)

这里传递给drop_duplicates()方法的参数是一个包含列名的列表，它指定我们使用什么列名作为去重的依据。

在这里，我们传递了[‘车型’, ‘生产日期’, ‘排量’]，这三个列名会被用作去重的依据。这意味着，如果存在车型、生产日期、排量完全相同的多个行，那么它们都会被删除，只保留其中的第一行。

现在，我们来看一下结果：

print(df)

结果如下：

  车型        生产日期   排量      售价
0  A  2020-10-01  1.5  100000
1  B  2020-11-01  1.6  120000
2  C  2020-12-01  1.6  110000
3  D  2021-01-01  2.0  150000
4  E  2021-02-01  2.0  140000
5  A  2021-03-01  1.5  100000
6  B  2021-04-01  1.6  120000

从结果中可以看出，我们成功地删除了所有重复的行。现在，我们的数据集不再包含重复行，可以继续进行后续的数据分析。