Pandas 修改 Python Pandas describe 的输出

Pandas 修改 Python Pandas describe 的输出

在本文中,我们将介绍如何使用 Pandas 修改 Python Pandas describe 函数的输出。describe 函数是 Pandas 中用于生成数据集统计信息的常用函数之一。它会生成该数据集的一些概括性统计信息,如计数,平均值,标准差等。但有时候我们需要对输出结果进行修改,以满足我们的数据分析需求。

阅读更多:Pandas 教程

describe 函数简介

先回忆一下 Pandas describe 函数的用法:我们可以使用该函数获取数值型数据集的常用统计信息。

import pandas as pd

df = pd.DataFrame({'A':[1,2,3],'B':[4,5,6]})
df.describe()

这将输出以下结果:

count  3.000000
mean   2.000000
std    1.000000
min    1.000000
25%    1.500000
50%    2.000000
75%    2.500000
max    3.000000

修改 describe 函数输出结构

有时候,我们需要修改 describe 函数输出结构。一些常见的修改方式包括:

1. 指定要返回的输出项

我们可以使用参数include和exclude来指定要返回的输出项。下面的代码将只返回平均值和标准差:

df.describe(include=['mean', 'std'])

输出结果为:

           B
mean  5.000000
std   0.816497

我们也可以使用 exclude 参数剔除某些输出项:

df.describe(exclude=['count', 'min', 'max'])

结果为:

              A         B
mean  2.000000  5.000000
std   1.000000  0.816497
25%   1.500000  4.500000
50%   2.000000  5.000000
75%   2.500000  5.500000

2. 自定义 describe 函数

有时候,自定义 describe 函数可以更好地满足我们的分析需求。下面是一个涵盖更多统计信息的自定义描述函数:

def custom_describe(data):
    res = data.describe()
    res.loc['variance'] = data.var()
    res.loc['skewness'] = data.skew()
    res.loc['kurtosis'] = data.kurt()
    res = res[['count', 'mean', 'std', 'min', '25%', '50%', '75%', 'max', 'variance', 'skewness', 'kurtosis']]
    return res

使用该函数获得的输出将包含更多的统计信息:

custom_describe(df['B'])

输出结果如下:

count       3.000000
mean        5.000000
std         0.816497
min         4.000000
25%         4.500000
50%         5.000000
75%         5.500000
max         6.000000
variance    0.666667
skewness    0.000000
kurtosis   -1.500000
dtype: float64

总结

在本文中,我们介绍了如何使用 Pandas 修改 Python Pandas describe 函数的输出。我们可以使用 include 和exclude 参数剔除和指定要返回的输出项,也可以自定义 describe 函数输出更多的统计信息。这些技巧将提高我们的数据分析效率。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程