如何计算Pandas中NaN值的数量
我们可能需要计算数据集中每个特征的NaN值的数量,这样我们就可以决定如何处理它。例如,如果缺失值的数量相当少,那么我们可以选择放弃这些观察值;或者可能有一列有很多条目是缺失的,那么我们可以决定是否根本不包括这个变量。
方法1:使用describe()
我们可以使用describe()方法,该方法返回一个包含数据集细节的表格。count属性直接给出了每一列中非NaN值的计数。因此,如果我们知道观察值的总数,我们就可以得到NaN值的计数。
输出 :
方法2:使用sum()
isnull()函数返回一个包含True和False值的数据集。由于True被视为1,False被视为0,因此在isnull()系列上调用sum()方法会返回True值的数量,这实际上与NaN值的数量相对应。
在一列中计算NaN :
我们可以简单地找到所需列中的空值,然后得到总和。
输出 :
连续计算NaN :
可以用loc或iloc选择该行。然后,我们像以前一样找到总和。
输出 :
在整个数据框架中计算NaN :
要计算整个数据集中的NaN,我们只需要调用sum()函数两次–一次用于获取每一列的计数,另一次用于查找所有列的总和。
输出 :