Pandas 如何获取DataFrame列值的平均数
在本文中,我们将介绍如何使用Pandas获取DataFrame列的平均值。Pandas是一个Python数据分析库,常用于数据清洗,数据预处理,数据可视化和机器学习等领域。它提供了丰富的数据结构和函数,方便用户进行数据处理和分析。
阅读更多:Pandas 教程
创建DataFrame
在使用Pandas获取DataFrame列值的平均数之前,我们需要先创建一个例子DataFrame。我们可以使用Pandas提供的DataFrame函数来创建DataFrame。下面是一个例子:
上述代码中,我们使用一个字典来创建DataFrame对象,其中字典的键表示DataFrame的列名,字典的值表示DataFrame的列值。
输出结果为:
计算DataFrame列值的平均数
在Pandas中,我们可以使用mean()函数来计算DataFrame列值的平均数。下面是一个例子:
输出结果为:
上述代码中,我们调用mean()函数来计算Salary列的平均数,并使用print()函数来输出结果。
需要注意的是,我们可以使用任何一列来计算平均数,如Age列的平均数。只需要将df[‘Salary’]替换为df[‘Age’]即可。
计算DataFrame多列的平均数
如果我们需要计算DataFrame中多列的平均数,可以使用mean()函数的axis参数。如果axis=0,表示对列进行计算,得到每列的平均数;如果axis=1,表示对行进行计算,得到每行的平均数。下面是一个例子:
输出结果为:
上述代码中,我们使用中括号[]来选择Age和Salary列,并使用mean()函数来计算平均数,axis参数的值为0。
去除空值后计算DataFrame列值的平均数
在实际数据处理中,我们常常会遇到缺失值。缺失值是指那些不完整或者不存在的数据。如果我们不做处理,会影响到数据的分析和模型的训练。在Pandas中,我们可以使用dropna()函数去除缺失值,然后再计算平均数。下面是一个例子:
输出结果为:
上述代码中,我们使用dropna()函数去除缺失值,得到新的DataFrame对象df_dropna。然后,我们计算Age列和Salary列的平均数,并使用print()函数输出结果。
总结
本文介绍了如何使用Pandas计算DataFrame列值的平均数。我们可以使用mean()函数来计算平均数,并使用axis参数来计算多列的平均数。如果数据中存在缺失值,我们可以使用dropna()函数去除缺失值。Pandas提供了丰富的函数和工具,方便用户进行数据分析和处理。