Python使用Missingno库可视化缺失值(NaN)值

Python使用Missingno库可视化缺失值(NaN)值

在现实世界的数据集中,数据集中的一些数值缺失是非常常见的。我们将这些缺失的值表示为NaN(Not a Number)值。但是为了建立一个好的机器学习模型,我们的数据集应该是完整的。这就是为什么我们使用一些归因技术,用一些可能的值来替代NaN值。但在这之前,我们需要很好地了解NaN值在数据集中的分布情况。

Missingno库提供了一个非常好的方法来可视化NaN值的分布。Missingno是一个Python库,与Pandas兼容。

安装库 –

pip install missingno
Python

要获得代码中使用的数据集,请点击这里。

Matrix :

使用这个矩阵,你可以很快找到数据集中的缺失模式。在我们的例子中,AAWhiteSt-4和SulphidityL-4这两列有类似的缺失值模式,而UCZAA则显示出不同的模式。

# Program to visualize missing values in dataset
  
# Importing the libraries
import pandas as pd
import missingno as msno
  
# Loading the dataset
df = pd.read_csv("kamyr-digester.csv")
  
# Visualize missing values as a matrix
msno.matrix(df)
Python

输出:
Python使用Missingno库可视化缺失值(NaN)值

条形图:

这个柱状图让你了解每一列有多少缺失值。在我们的例子中,AAWhiteSt-4和SulphidityL-4包含最多的缺失值,其次是UCZAA。

# Program to visualize missing values in dataset
  
# Importing the libraries
import pandas as pd
import missingno as msno
  
# Loading the dataset
df = pd.read_csv("kamyr-digester.csv")
  
# Visualize the number of missing
# values as a bar chart
msno.bar(df)
Python

输出:
Python使用Missingno库可视化缺失值(NaN)值

Heatmap :

热图显示了每两列之间缺失的关联性。在我们的例子中,AAWhiteSt-4和SulphidityL-4之间的相关性是1,这意味着如果其中一个存在,那么另一个也一定存在。

靠近-1的值意味着如果一个变量出现,那么另一个变量就很有可能丢失。
接近0的值意味着两个变量的缺失值的出现之间没有依赖性。
一个接近1的值意味着如果一个变量出现,那么另一个变量就很可能出现。

# Program to visualize missing values in dataset
  
# Importing the libraries
import pandas as pd
import missingno as msno
  
# Loading the dataset
df = pd.read_csv("kamyr-digester.csv")
  
  
# Visualize the correlation between the number of
# missing values in different columns as a heatmap
msno.heatmap(df)
Python

输出:
Python使用Missingno库可视化缺失值(NaN)值

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

登录

注册