Python使用Missingno库可视化缺失值(NaN)值
在现实世界的数据集中,数据集中的一些数值缺失是非常常见的。我们将这些缺失的值表示为NaN(Not a Number)值。但是为了建立一个好的机器学习模型,我们的数据集应该是完整的。这就是为什么我们使用一些归因技术,用一些可能的值来替代NaN值。但在这之前,我们需要很好地了解NaN值在数据集中的分布情况。
Missingno库提供了一个非常好的方法来可视化NaN值的分布。Missingno是一个Python库,与Pandas兼容。
安装库 –
要获得代码中使用的数据集,请点击这里。
Matrix :
使用这个矩阵,你可以很快找到数据集中的缺失模式。在我们的例子中,AAWhiteSt-4和SulphidityL-4这两列有类似的缺失值模式,而UCZAA则显示出不同的模式。
输出:
条形图:
这个柱状图让你了解每一列有多少缺失值。在我们的例子中,AAWhiteSt-4和SulphidityL-4包含最多的缺失值,其次是UCZAA。
输出:
Heatmap :
热图显示了每两列之间缺失的关联性。在我们的例子中,AAWhiteSt-4和SulphidityL-4之间的相关性是1,这意味着如果其中一个存在,那么另一个也一定存在。
靠近-1的值意味着如果一个变量出现,那么另一个变量就很有可能丢失。
接近0的值意味着两个变量的缺失值的出现之间没有依赖性。
一个接近1的值意味着如果一个变量出现,那么另一个变量就很可能出现。
输出: