pandas count
在pandas中,count()
函数可以用来统计指定列中非缺失值的个数。这在数据分析中非常常用,特别是在数据清洗阶段。本文将详细介绍count()
函数的用法,并提供一些示例来帮助读者更好地了解这个函数。
count()
函数的基本用法
count()
函数是一个Series/DataFrame对象的方法,可以统计指定列中非缺失值的个数。下面是count()
函数的基本语法:
Series.count(level=None, numeric_only=False)
参数说明:
level
:指定统计的层级,主要用于层次化索引的数据numeric_only
:如果为True,则只计算数值类型的非缺失值个数
接下来,我们将通过一些示例来演示count()
函数的用法。
示例一:统计单个列的非缺失值个数
首先,我们创建一个简单的DataFrame来演示count()
函数的用法:
import pandas as pd
data = {'A': [1, 2, None, 4, 5],
'B': [None, 2, 3, 4, 5],
'C': [1, 2, 3, 4, 5]}
df = pd.DataFrame(data)
print(df)
运行以上代码,输出如下:
A B C
0 1.0 NaN 1
1 2.0 2.0 2
2 NaN 3.0 3
3 4.0 4.0 4
4 5.0 5.0 5
现在,我们可以使用count()
函数来统计每一列中非缺失值的个数:
print(df['A'].count())
print(df['B'].count())
print(df['C'].count())
输出如下:
4
4
5
从结果可以看出,列’A’和列’B’中都有一个缺失值,而列’C’没有缺失值。
示例二:统计多列的非缺失值个数
除了统计单个列的非缺失值个数,我们也可以同时统计多列的非缺失值个数。下面的示例演示如何统计多列的非缺失值个数:
print(df[['A', 'B']].count())
输出如下:
A 4
B 4
dtype: int64
示例三:统计DataFrame的非缺失值个数
如果我们想要统计整个DataFrame中非缺失值的个数,可以直接调用DataFrame对象的count()
方法:
print(df.count())
输出如下:
A 4
B 4
C 5
dtype: int64
示例四:统计指定层级的非缺失值个数
如果我们的DataFrame具有层次化索引,我们可以通过level
参数来指定需要统计的层级。下面的示例演示了如何统计指定层级的非缺失值个数:
data = {'A': [1, 2, None, 4, 5],
'B': [None, 2, 3, 4, 5],
'C': [1, 2, 3, 4, 5]}
df = pd.DataFrame(data, index=[['X', 'X', 'Y', 'Y', 'Z'], [1, 2, 1, 2, 1]])
print(df)
运行以上代码,输出如下:
A B C
X 1 1.0 NaN 1
2 2.0 2.0 2
Y 1 NaN 3.0 3
2 4.0 4.0 4
Z 1 5.0 5.0 5
现在,我们可以使用level
参数来指定需要统计的层级:
print(df['A'].count(level=0)) # 统计一级索引的非缺失值个数
输出如下:
X 2
Y 1
Z 1
Name: A, dtype: int64
总结
在数据分析中,count()
函数是一个非常有用的函数,可以帮助我们快速统计数据中非缺失值的个数。通过本文的介绍和示例,相信读者对count()
函数有了更深的理解。在实际应用中,读者可以根据自己的需求灵活运用count()
函数来处理数据。