R语言 如何删除R数据框架中的重复行
在这篇文章中,我们将讨论如何在R编程语言中删除数据框架中的重复行。
使用中的数据集
方法1:使用distinct()
这个方法在dplyr包中可用,用于从数据框中获取唯一的行。我们可以从整个数据框中移除重复的行,也可以在特定的列中移除重复的行。
语法:
distinct(dataframe)
distinct(dataframe,column1,column2,.,column n)
例子: 使用distinct()函数删除重复行的R程序
# load the package
library(dplyr)
# create dataframe
data=data.frame(names=c("manoj","bobby","sravan",
"deepu","manoj","bobby") ,
id=c(1,2,3,4,1,2),
subjects=c("java","python","php",
"html","java","python"))
# remove all duplicate rows
print(distinct(data))
# remove duplicate rows in subjects column
print(distinct(data,subjects))
# remove duplicate rows in namescolumn
print(distinct(data,names))
输出
方法2:使用 duplicated()
这个函数将从数据框架中返回重复的数据,为了获得唯一的行,我们必须在这个方法之前指定!
语法:
data[!duplicated(data$column_name), ]
其中。
- data是输入数据框
- column_name是这一列中被删除的重复数据。
例子: R程序使用diplicated()函数来移除重复的行
# create dataframe
data=data.frame(names=c("manoj","bobby","sravan",
"deepu","manoj","bobby") ,
id=c(1,2,3,4,1,2),
subjects=c("java","python","php",
"html","java","python"))
# remove duplicate rows in subjects column
print(data[!duplicated(datasubjects), ])
# remove duplicate rows in names column
print(data[!duplicated(datanames), ])
# remove duplicate rows in id column
print(data[!duplicated(data$id), ])
输出
方法3:使用unique()
这将从数据框架中获得唯一的行。
语法:
unique(dataframe)
要在一个特定的列中获取
语法:
unique(dataframe$column_name
例子 :使用unique()函数删除重复的行的R程序
# create dataframe
data=data.frame(names=c("manoj","bobby","sravan",
"deepu","manoj","bobby") ,
id=c(1,2,3,4,1,2),
subjects=c("java","python","php",
"html","java","python"))
# remove duplicate rows in subjects column
print(unique(datasubjects))
# remove duplicate rows in names column
print(unique(datanames))
# remove duplicate rows in id column
print(unique(data$id))
输出
[1] "java" "python" "php" "html"
[1] "manoj" "bobby" "sravan" "deepu"
[1] 1 2 3 4
例子: 在整个数据框中应用unique()函数的R程序
# create dataframe
data=data.frame(names=c("manoj","bobby","sravan",
"deepu","manoj","bobby") ,
id=c(1,2,3,4,1,2),
subjects=c("java","python","php",
"html","java","python"))
# remove duplicate rows in entire dataframe
print(unique(data))
输出