Python Pandas dataframe.drop_duplicates()
Pandas drop_duplicates()方法有助于从Pandas Dataframe In Python中删除重复的内容。
df.drop_duplicates()
语法: DataFrame.drop_duplicates(subset=None, keep=’first’, inplace=False)
参数:
- subset。Subset接收一个列或列标签的列表。它的默认值是无。在传递列之后,它将只考虑它们的重复。
- keep:keep是用来控制如何考虑重复的值。它只有三个不同的值,默认是 “first”。
- 如果’first’,它认为第一个值是唯一的,其余相同的值是重复的。
- 如果是’last’,它认为最后一个值是唯一的,其余的相同值是重复的。
- 如果是假的,它认为所有相同的值都是重复的。
- inplace:布尔值,如果为真,则删除有重复的行。
返回类型:数据框架,根据传递的参数,删除重复的行。
示例:
我们可以看到其中一个TeamA和团队由于价值重复而被放弃。
输出:
要下载所用的CSV文件,请点击这里。
例子1:删除具有相同名字的行
在下面的例子中,具有相同名字的行被删除,并返回一个新的数据框架。
输出:
如图所示,具有相同名称的行被从一个数据框中删除。
例子2:删除有所有重复值的行
在这个例子中,拥有所有数值的行将被删除。由于CSV文件中没有这样的行,所以先复制一个随机行并插入到数据框中。
输出:
如输出图片所示,删除重复的数据后的长度为999。由于keep参数被设置为False,所有重复的行都被删除。