Pandas 如何获取DataFrame列值的平均数

Pandas 如何获取DataFrame列值的平均数

在本文中,我们将介绍如何使用Pandas获取DataFrame列的平均值。Pandas是一个Python数据分析库,常用于数据清洗,数据预处理,数据可视化和机器学习等领域。它提供了丰富的数据结构和函数,方便用户进行数据处理和分析。

阅读更多:Pandas 教程

创建DataFrame

在使用Pandas获取DataFrame列值的平均数之前,我们需要先创建一个例子DataFrame。我们可以使用Pandas提供的DataFrame函数来创建DataFrame。下面是一个例子:

import pandas as pd

# 创建DataFrame
df = pd.DataFrame({'Name': ['Tom', 'Sam', 'Steve', 'Rob'], 
                   'Age': [25, 30, 32, 28], 
                   'Salary': [5000, 6000, 7000, 8000]})
print(df)
Python

上述代码中,我们使用一个字典来创建DataFrame对象,其中字典的键表示DataFrame的列名,字典的值表示DataFrame的列值。

输出结果为:

    Name  Age  Salary
0    Tom   25    5000
1    Sam   30    6000
2  Steve   32    7000
3    Rob   28    8000
Python

计算DataFrame列值的平均数

在Pandas中,我们可以使用mean()函数来计算DataFrame列值的平均数。下面是一个例子:

import pandas as pd

# 创建DataFrame
df = pd.DataFrame({'Name': ['Tom', 'Sam', 'Steve', 'Rob'], 
                   'Age': [25, 30, 32, 28], 
                   'Salary': [5000, 6000, 7000, 8000]})

# 计算Salary列的平均数
mean_salary = df['Salary'].mean()
print('Salary列的平均数为:', mean_salary)
Python

输出结果为:

Salary列的平均数为: 6500.0
Python

上述代码中,我们调用mean()函数来计算Salary列的平均数,并使用print()函数来输出结果。

需要注意的是,我们可以使用任何一列来计算平均数,如Age列的平均数。只需要将df[‘Salary’]替换为df[‘Age’]即可。

计算DataFrame多列的平均数

如果我们需要计算DataFrame中多列的平均数,可以使用mean()函数的axis参数。如果axis=0,表示对列进行计算,得到每列的平均数;如果axis=1,表示对行进行计算,得到每行的平均数。下面是一个例子:

import pandas as pd

# 创建DataFrame
df = pd.DataFrame({'Name': ['Tom', 'Sam', 'Steve', 'Rob'], 
                   'Age': [25, 30, 32, 28], 
                   'Salary': [5000, 6000, 7000, 8000]})

# 计算Age和Salary列的平均数
mean_age_salary = df[['Age', 'Salary']].mean(axis=0)
print('Age和Salary列的平均数为:\n', mean_age_salary)
Python

输出结果为:

AgeSalary列的平均数为:
 Age         28.750
Salary    6500.000
dtype: float64
Python

上述代码中,我们使用中括号[]来选择Age和Salary列,并使用mean()函数来计算平均数,axis参数的值为0。

去除空值后计算DataFrame列值的平均数

在实际数据处理中,我们常常会遇到缺失值。缺失值是指那些不完整或者不存在的数据。如果我们不做处理,会影响到数据的分析和模型的训练。在Pandas中,我们可以使用dropna()函数去除缺失值,然后再计算平均数。下面是一个例子:

import pandas as pd

# 创建DataFrame
df = pd.DataFrame({'Name': ['Tom', 'Sam', 'Steve', 'Rob'], 
                   'Age': [25, 30, 32, None], 
                   'Salary': [5000, 6000, None, 8000]})

# 去除空值
df_dropna = df.dropna()

# 计算Age列的平均数
mean_age = df_dropna['Age'].mean()
print('去除缺失值后的Age列的平均数为:', mean_age)

# 计算Salary列的平均数
mean_salary = df_dropna['Salary'].mean()
print('去除缺失值后的Salary列的平均数为:', mean_salary)
Python

输出结果为:

去除缺失值后的Age列的平均数为: 29.0
去除缺失值后的Salary列的平均数为: 5500.0
Python

上述代码中,我们使用dropna()函数去除缺失值,得到新的DataFrame对象df_dropna。然后,我们计算Age列和Salary列的平均数,并使用print()函数输出结果。

总结

本文介绍了如何使用Pandas计算DataFrame列值的平均数。我们可以使用mean()函数来计算平均数,并使用axis参数来计算多列的平均数。如果数据中存在缺失值,我们可以使用dropna()函数去除缺失值。Pandas提供了丰富的函数和工具,方便用户进行数据分析和处理。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

登录

注册