R语言 如何查找和计算R数据框架中的缺失值
在这篇文章中,我们将讨论如何在R编程语言中寻找和计算缺失值。
一般来说,给定数据中的缺失值是用NA表示的。在R编程中,缺失值可以通过is.na()方法确定。这个方法接受数据变量作为参数,并确定该数据点是否为缺失值。要找到缺失值的位置,可以使用which()方法,其中is.na()方法被传递给which()方法。要计算缺失值的总数,请使用sum()方法,其中is.na()方法被传递给该方法。
让我们来看看查找缺失值的位置和总计数的方法的语法
找出缺失值的位置
which(is.na(data))
发现缺失值的数量
sum(is.na(data))
找到并计算整个数据框架中的缺失值
为了从整个数据框中找到缺失值的位置和它们的数量,将数据框的名称传递给is.na()方法。让我们来看看从整个数据框中寻找和计算缺失值的程序。
例子 。
在下面的代码中,我们创建了一个数据框 “stats”,该数据框保存了一些缺失值的板球运动员的数据。为了确定给定数据中缺失值的位置和数量,我们使用了 which(is.na(stats )) 和 sum(is.na(stats )) 方法。
# create a data frame
stats <- data.frame(player=c('A', 'B', 'C', 'D'),
runs=c(100, 200, 408, NA),
wickets=c(17, 20, NA, 5))
# find location of missing values
print("Position of missing values -")
which(is.na(stats))
# count total missing values
print("Count of total missing values - ")
sum(is.na(stats))
输出
Position of missing values - 8 11
Count of total missing values - 2
查找和统计数据框中某一列的缺失值
为了找到数据框架中某一列的缺失值的位置和它们的数量,将 dataframeName$columnName 传递给is.na()方法。 让我们来看看在数据框的指定列中寻找和计算缺失值的程序。
例子 。
在这段代码中,我们将找到某一列中缺失值的位置和数量。为了找到某一列的缺失值,在 is.na() 方法中把$columnName追加到数据框的名称中。
# create a data frame
stats <- data.frame(player=c('A', 'B', 'C', 'D'),
runs=c(NA, 200, 408, NA),
wickets=c(17, 20, NA, 8))
print("Location of missing values in runs column")
which(is.na(statsruns))
print("Count of missing values in wickets column")
sum(is.na(statswickets))
输出
"Location of missing values in runs column"
1 4
"Count of missing values in wickets column"
1
查找并统计数据框中所有列的缺失值
我们也可以在数据框架中按列查找缺失值。它减少了在数据框中搜索缺失值的复杂性。让我们来看看一个查找和统计缺失值的示例程序。
例子 。
在这段代码中,我们将找到数据框架中所有给定列中缺失值的位置和数量。为了找到所有列中的缺失值,请使用is.na()方法中的apply函数与which和sum函数。
# create a data frame
stats <- data.frame(player=c('A', 'B', 'C', 'D'),
runs=c(100, 200, 408, NA),
wickets=c(17, 20, NA, 5))
# find location of missing values column wise
print("Position of missing values by column wise")
sapply(stats, function(x) which(is.na(x)))
# count the missing values by column wise
print("Count of missing values by column wise")
sapply(stats, function(x) sum(is.na(x)))
输出
"Position of missing values by column wise"
player
integer(0)runs
4
$wickets
3
"Count of missing values by column wise"
player runs wickets
0 1 1
从输出结果来看,我们可以说,-
- 球员一栏没有缺失值。
- 跑步次数一栏在第 4个位置有一个缺失值。
- 门票栏在第 3个位置有1个缺失值。