Pandas 修改 Python Pandas describe 的输出
在本文中,我们将介绍如何使用 Pandas 修改 Python Pandas describe 函数的输出。describe 函数是 Pandas 中用于生成数据集统计信息的常用函数之一。它会生成该数据集的一些概括性统计信息,如计数,平均值,标准差等。但有时候我们需要对输出结果进行修改,以满足我们的数据分析需求。
阅读更多:Pandas 教程
describe 函数简介
先回忆一下 Pandas describe 函数的用法:我们可以使用该函数获取数值型数据集的常用统计信息。
import pandas as pd
df = pd.DataFrame({'A':[1,2,3],'B':[4,5,6]})
df.describe()
这将输出以下结果:
count 3.000000
mean 2.000000
std 1.000000
min 1.000000
25% 1.500000
50% 2.000000
75% 2.500000
max 3.000000
修改 describe 函数输出结构
有时候,我们需要修改 describe 函数输出结构。一些常见的修改方式包括:
1. 指定要返回的输出项
我们可以使用参数include和exclude来指定要返回的输出项。下面的代码将只返回平均值和标准差:
df.describe(include=['mean', 'std'])
输出结果为:
B
mean 5.000000
std 0.816497
我们也可以使用 exclude 参数剔除某些输出项:
df.describe(exclude=['count', 'min', 'max'])
结果为:
A B
mean 2.000000 5.000000
std 1.000000 0.816497
25% 1.500000 4.500000
50% 2.000000 5.000000
75% 2.500000 5.500000
2. 自定义 describe 函数
有时候,自定义 describe 函数可以更好地满足我们的分析需求。下面是一个涵盖更多统计信息的自定义描述函数:
def custom_describe(data):
res = data.describe()
res.loc['variance'] = data.var()
res.loc['skewness'] = data.skew()
res.loc['kurtosis'] = data.kurt()
res = res[['count', 'mean', 'std', 'min', '25%', '50%', '75%', 'max', 'variance', 'skewness', 'kurtosis']]
return res
使用该函数获得的输出将包含更多的统计信息:
custom_describe(df['B'])
输出结果如下:
count 3.000000
mean 5.000000
std 0.816497
min 4.000000
25% 4.500000
50% 5.000000
75% 5.500000
max 6.000000
variance 0.666667
skewness 0.000000
kurtosis -1.500000
dtype: float64
总结
在本文中,我们介绍了如何使用 Pandas 修改 Python Pandas describe 函数的输出。我们可以使用 include 和exclude 参数剔除和指定要返回的输出项,也可以自定义 describe 函数输出更多的统计信息。这些技巧将提高我们的数据分析效率。