Python Pandas Dataframe.Diplicated()
Python是一种进行数据分析的伟大语言,主要是因为以数据为中心的Python软件包的奇妙生态系统。Pandas就是这些包中的一个,使导入和分析数据变得更加容易。
数据分析的一个重要部分是分析_重复的值并删除它们。Pandas duplicated()方法只帮助分析重复的值。它返回一个布尔系列,仅对唯一元素为真。
语法:
参数:
subset:取一个列或列标签的列表。它的默认值是无。传递列后,它将只考虑它们的重复。
keep:控制如何考虑重复的值。它只有三个不同的值,默认是’first’。
- 如果是’first’,它认为第一个值是唯一的,其余相同的值是重复的。
- 如果是’last’,它认为最后一个值是唯一的,其余相同的值是重复的。
- 如果是假的,它认为所有相同的值都是重复的。
例子#1:返回一个布尔值系列
在下面的例子中,根据名字列中的重复值,返回一个布尔值系列。
输出:
如输出图片所示,由于保留参数是默认的,即 “第一”,因此,每当名字出现时,第一个被认为是唯一的,而不是重复的。
例子2:删除重复的内容
在这个例子中,keep参数被设置为False,所以只取Unique值,重复的值被从数据中删除。
输出:
由于Doubleicated()方法对Duplicates返回False,系列的NOT被用来查看数据框中的唯一值。