pandas describe

pandas describe

pandas describe

在数据分析和处理领域中,pandas库是Python中非常受欢迎的数据处理工具之一。其中的describe()函数可以用来生成关于DataFrame中数值型列的描述性统计信息,包括计数、均值、标准差、最小值、最大值等。

使用方法

我们首先导入pandas库,并创建一个简单的DataFrame用于演示describe()函数的使用方法。

import pandas as pd

data = {
    'A': [1, 2, 3, 4, 5],
    'B': [1.5, 2.5, 3.5, 4.5, 5.5],
    'C': ['geek-docs.com', 'geek-docs.com', 'geek-docs.com', 'geek-docs.com', 'geek-docs.com']
}

df = pd.DataFrame(data)
print(df)

运行结果:

   A    B              C
0  1  1.5  geek-docs.com
1  2  2.5  geek-docs.com
2  3  3.5  geek-docs.com
3  4  4.5  geek-docs.com
4  5  5.5  geek-docs.com

接下来,我们使用describe()函数来查看DataFrame中数值型列的描述性统计信息。

print(df.describe())

运行结果:

             A         B
count  5.00000  5.000000
mean   3.00000  3.000000
std    1.58114  1.581139
min    1.00000  1.500000
25%    2.00000  2.500000
50%    3.00000  3.500000
75%    4.00000  4.500000
max    5.00000  5.500000

在这个示例中,我们可以看到describe()函数生成了关于DataFrame中数值型列的计数、均值、标准差、最小值、最大值等统计信息。

参数说明

describe()函数还支持一些参数,例如include和exclude参数,可以用来指定要包括或排除的列。

print(df.describe(include='all'))

运行结果:

             A         B              C
count  5.00000  5.000000              5
unique      NaN       NaN              1
top         NaN       NaN  geek-docs.com
freq        NaN       NaN              5
mean   3.00000  3.000000            NaN
std    1.58114  1.581139            NaN
min    1.00000  1.500000            NaN
25%    2.00000  2.500000            NaN
50%    3.00000  3.500000            NaN
75%    4.00000  4.500000            NaN
max    5.00000  5.500000            NaN

在这个示例中,我们使用include=’all’参数来包括所有列,包括非数值型的列。可以看到,describe()函数也可以生成非数值型列的统计信息,比如唯一值的个数、出现频率最高的值等。

总结

通过本文的介绍,我们了解了pandas库中describe()函数的基本用法和一些参数的设置方式。该函数可以方便地生成关于DataFrame中数值型列的描述性统计信息,帮助我们更好地理解数据集的特征。在实际的数据分析工作中,describe()函数是一个非常常用的工具,可以为我们的工作提供便利。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程