pandas describe
在数据分析和处理领域中,pandas库是Python中非常受欢迎的数据处理工具之一。其中的describe()函数可以用来生成关于DataFrame中数值型列的描述性统计信息,包括计数、均值、标准差、最小值、最大值等。
使用方法
我们首先导入pandas库,并创建一个简单的DataFrame用于演示describe()函数的使用方法。
import pandas as pd
data = {
'A': [1, 2, 3, 4, 5],
'B': [1.5, 2.5, 3.5, 4.5, 5.5],
'C': ['geek-docs.com', 'geek-docs.com', 'geek-docs.com', 'geek-docs.com', 'geek-docs.com']
}
df = pd.DataFrame(data)
print(df)
运行结果:
A B C
0 1 1.5 geek-docs.com
1 2 2.5 geek-docs.com
2 3 3.5 geek-docs.com
3 4 4.5 geek-docs.com
4 5 5.5 geek-docs.com
接下来,我们使用describe()函数来查看DataFrame中数值型列的描述性统计信息。
print(df.describe())
运行结果:
A B
count 5.00000 5.000000
mean 3.00000 3.000000
std 1.58114 1.581139
min 1.00000 1.500000
25% 2.00000 2.500000
50% 3.00000 3.500000
75% 4.00000 4.500000
max 5.00000 5.500000
在这个示例中,我们可以看到describe()函数生成了关于DataFrame中数值型列的计数、均值、标准差、最小值、最大值等统计信息。
参数说明
describe()函数还支持一些参数,例如include和exclude参数,可以用来指定要包括或排除的列。
print(df.describe(include='all'))
运行结果:
A B C
count 5.00000 5.000000 5
unique NaN NaN 1
top NaN NaN geek-docs.com
freq NaN NaN 5
mean 3.00000 3.000000 NaN
std 1.58114 1.581139 NaN
min 1.00000 1.500000 NaN
25% 2.00000 2.500000 NaN
50% 3.00000 3.500000 NaN
75% 4.00000 4.500000 NaN
max 5.00000 5.500000 NaN
在这个示例中,我们使用include=’all’参数来包括所有列,包括非数值型的列。可以看到,describe()函数也可以生成非数值型列的统计信息,比如唯一值的个数、出现频率最高的值等。
总结
通过本文的介绍,我们了解了pandas库中describe()函数的基本用法和一些参数的设置方式。该函数可以方便地生成关于DataFrame中数值型列的描述性统计信息,帮助我们更好地理解数据集的特征。在实际的数据分析工作中,describe()函数是一个非常常用的工具,可以为我们的工作提供便利。