pandas describe|极客教程

pandas describe

在数据分析和处理领域中，pandas库是Python中非常受欢迎的数据处理工具之一。其中的describe()函数可以用来生成关于DataFrame中数值型列的描述性统计信息，包括计数、均值、标准差、最小值、最大值等。

使用方法

我们首先导入pandas库，并创建一个简单的DataFrame用于演示describe()函数的使用方法。

import pandas as pd

data = {
    'A': [1, 2, 3, 4, 5],
    'B': [1.5, 2.5, 3.5, 4.5, 5.5],
    'C': ['geek-docs.com', 'geek-docs.com', 'geek-docs.com', 'geek-docs.com', 'geek-docs.com']
}

df = pd.DataFrame(data)
print(df)

运行结果：

   A    B              C
0  1  1.5  geek-docs.com
1  2  2.5  geek-docs.com
2  3  3.5  geek-docs.com
3  4  4.5  geek-docs.com
4  5  5.5  geek-docs.com

接下来，我们使用describe()函数来查看DataFrame中数值型列的描述性统计信息。

print(df.describe())

运行结果：

             A         B
count  5.00000  5.000000
mean   3.00000  3.000000
std    1.58114  1.581139
min    1.00000  1.500000
25%    2.00000  2.500000
50%    3.00000  3.500000
75%    4.00000  4.500000
max    5.00000  5.500000

在这个示例中，我们可以看到describe()函数生成了关于DataFrame中数值型列的计数、均值、标准差、最小值、最大值等统计信息。

参数说明

describe()函数还支持一些参数，例如include和exclude参数，可以用来指定要包括或排除的列。

print(df.describe(include='all'))

运行结果：

             A         B              C
count  5.00000  5.000000              5
unique      NaN       NaN              1
top         NaN       NaN  geek-docs.com
freq        NaN       NaN              5
mean   3.00000  3.000000            NaN
std    1.58114  1.581139            NaN
min    1.00000  1.500000            NaN
25%    2.00000  2.500000            NaN
50%    3.00000  3.500000            NaN
75%    4.00000  4.500000            NaN
max    5.00000  5.500000            NaN

在这个示例中，我们使用include=’all’参数来包括所有列，包括非数值型的列。可以看到，describe()函数也可以生成非数值型列的统计信息，比如唯一值的个数、出现频率最高的值等。