R语言 Dplyr删除基于多列的重复行
在这篇文章中,我们将学习如何使用R编程语言中的Dplyr来删除基于多列的重复行。
使用中的数据框架
基于单列删除重复的记录
distinct() 函数可以用来过滤掉重复的行。我们只需要在 distinct() 函数中传递我们的R对象和列名作为一个参数。
注意 :我们在函数中使用了这个参数 “.keep_all= TRUE “,因为默认情况下它是 “FALSE”, 它将只打印指定列的不同值,但我们想要所有的列,所以我们必须使它成为 “TRUE”, 这样它将与当前列一起打印所有其他的列。
语法: distinct(df, column_name, .keep_all= TRUE)
参数
df: 数据框架对象
column_name: 列名,根据这个列名,重复的行将被删除。
例子: R程序基于单列删除重复的行
输出
基于多列删除重复的行
我们可以在 ‘value ‘ & ‘usage ‘ 列的基础上删除重复的值,绕过这些列名作为distinct函数的一个参数。
语法 : distinct(df, col1,col2, .keep_all= TRUE)
参数 :
df : 数据框架对象
col1,col2 : 列名,根据这个列名,重复的行将被删除。
例子: R程序基于多列删除重复的行
输出
从数据框中删除所有重复的行
在这种情况下,我们只需将整个数据框架作为参数传给 distinct ()函数,然后它将检查所有变量/列的所有重复行并将其删除。
语法 :distinct(df)
参数 :
df :数据框架对象
例子: R程序从数据库中删除所有重复的行
输出
使用 duplicated() 函数
在这个方法中,我们使用了 doubleicated() 函数来删除所有重复的行,这里doubleicated函数被用来 ,检查重复的行,然后列名/变量被传递到doubleicated函数中。
注意 :我们使用了 NOT ( ! ) 操作符,因为我们想过滤掉或删除重复的记录,因为Doubleicated函数提供了重复的记录,我们用 ‘! ‘操作符将其否定。
语法
df %>%
filter(!duplicated(cbind(col1, col2,..))
参数
col1,col2: 传递你想移除重复值的列的名称。
cbind() :它用于将列名绑定在一起,这样就可以使用多个列名进行过滤。
duplicated(): 返回重复的行。
例子: 使用 duplicate() 删除重复的 R 程序
输出