R语言 如何查找和计算R数据框架中的缺失值

R语言 如何查找和计算R数据框架中的缺失值

在这篇文章中,我们将讨论如何在R编程语言中寻找和计算缺失值。

一般来说,给定数据中的缺失值是用NA表示的。在R编程中,缺失值可以通过is.na()方法确定。这个方法接受数据变量作为参数,并确定该数据点是否为缺失值。要找到缺失值的位置,可以使用which()方法,其中is.na()方法被传递给which()方法。要计算缺失值的总数,请使用sum()方法,其中is.na()方法被传递给该方法。

让我们来看看查找缺失值的位置和总计数的方法的语法

找出缺失值的位置

which(is.na(data))

发现缺失值的数量

sum(is.na(data))

找到并计算整个数据框架中的缺失值

为了从整个数据框中找到缺失值的位置和它们的数量,将数据框的名称传递给is.na()方法。让我们来看看从整个数据框中寻找和计算缺失值的程序。

例子

在下面的代码中,我们创建了一个数据框 “stats”,该数据框保存了一些缺失值的板球运动员的数据。为了确定给定数据中缺失值的位置和数量,我们使用了 which(is.na(stats )) 和 sum(is.na(stats )) 方法。

# create a data frame 
stats <- data.frame(player=c('A', 'B', 'C', 'D'),
                 runs=c(100, 200, 408, NA),
                 wickets=c(17, 20, NA, 5))
  
# find location of missing values
print("Position of missing values -")
which(is.na(stats))
  
# count total missing values 
print("Count of total missing values - ")
sum(is.na(stats))

输出

Position of missing values - 8 11
Count of total missing values - 2

查找和统计数据框中某一列的缺失值

为了找到数据框架中某一列的缺失值的位置和它们的数量,将 dataframeName$columnName 传递给is.na()方法。 让我们来看看在数据框的指定列中寻找和计算缺失值的程序。

例子

在这段代码中,我们将找到某一列中缺失值的位置和数量。为了找到某一列的缺失值,在 is.na() 方法中把$columnName追加到数据框的名称中。

# create a data frame 
stats <- data.frame(player=c('A', 'B', 'C', 'D'),
                 runs=c(NA, 200, 408, NA),
                 wickets=c(17, 20, NA, 8))
  
print("Location of missing values in runs column")
which(is.na(statsruns))
  
  
print("Count of missing values in wickets column")
sum(is.na(statswickets))

输出

"Location of missing values in runs column"
1 4
"Count of missing values in wickets column"
1

查找并统计数据框中所有列的缺失值

我们也可以在数据框架中按列查找缺失值。它减少了在数据框中搜索缺失值的复杂性。让我们来看看一个查找和统计缺失值的示例程序。

例子

在这段代码中,我们将找到数据框架中所有给定列中缺失值的位置和数量。为了找到所有列中的缺失值,请使用is.na()方法中的apply函数与which和sum函数。

# create a data frame 
stats <- data.frame(player=c('A', 'B', 'C', 'D'),
                 runs=c(100, 200, 408, NA),
                 wickets=c(17, 20, NA, 5))
  
# find location of missing values column wise
print("Position of missing values by column wise")
sapply(stats, function(x) which(is.na(x)))
  
# count the missing values by column wise
print("Count of missing values by column wise")
sapply(stats, function(x) sum(is.na(x)))

输出

"Position of missing values by column wise"
player
integer(0)runs
4
$wickets
3
"Count of missing values by column wise"
player    runs wickets 
     0       1       1 

从输出结果来看,我们可以说,-

  • 球员一栏没有缺失值。
  • 跑步次数一栏在第 4个位置有一个缺失值。
  • 门票栏在第 3个位置有1个缺失值。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程