Python使用Missingno库可视化缺失值（NaN）值

在现实世界的数据集中，数据集中的一些数值缺失是非常常见的。我们将这些缺失的值表示为NaN（Not a Number）值。但是为了建立一个好的机器学习模型，我们的数据集应该是完整的。这就是为什么我们使用一些归因技术，用一些可能的值来替代NaN值。但在这之前，我们需要很好地了解NaN值在数据集中的分布情况。

Missingno库提供了一个非常好的方法来可视化NaN值的分布。Missingno是一个Python库，与Pandas兼容。

安装库 –

pip install missingno

要获得代码中使用的数据集，请点击这里。

Matrix :

使用这个矩阵，你可以很快找到数据集中的缺失模式。在我们的例子中，AAWhiteSt-4和SulphidityL-4这两列有类似的缺失值模式，而UCZAA则显示出不同的模式。

# Program to visualize missing values in dataset
  
# Importing the libraries
import pandas as pd
import missingno as msno
  
# Loading the dataset
df = pd.read_csv("kamyr-digester.csv")
  
# Visualize missing values as a matrix
msno.matrix(df)

输出:
Python使用Missingno库可视化缺失值（NaN）值

条形图:

这个柱状图让你了解每一列有多少缺失值。在我们的例子中，AAWhiteSt-4和SulphidityL-4包含最多的缺失值，其次是UCZAA。

# Program to visualize missing values in dataset
  
# Importing the libraries
import pandas as pd
import missingno as msno
  
# Loading the dataset
df = pd.read_csv("kamyr-digester.csv")
  
# Visualize the number of missing
# values as a bar chart
msno.bar(df)

输出:
Python使用Missingno库可视化缺失值（NaN）值

Heatmap :

热图显示了每两列之间缺失的关联性。在我们的例子中，AAWhiteSt-4和SulphidityL-4之间的相关性是1，这意味着如果其中一个存在，那么另一个也一定存在。

靠近-1的值意味着如果一个变量出现，那么另一个变量就很有可能丢失。
接近0的值意味着两个变量的缺失值的出现之间没有依赖性。
一个接近1的值意味着如果一个变量出现，那么另一个变量就很可能出现。

# Program to visualize missing values in dataset
  
# Importing the libraries
import pandas as pd
import missingno as msno
  
# Loading the dataset
df = pd.read_csv("kamyr-digester.csv")
  
  
# Visualize the correlation between the number of
# missing values in different columns as a heatmap
msno.heatmap(df)

输出:
Python使用Missingno库可视化缺失值（NaN）值