Pandas 如何获取DataFrame列值的平均数

在本文中，我们将介绍如何使用Pandas获取DataFrame列的平均值。Pandas是一个Python数据分析库，常用于数据清洗，数据预处理，数据可视化和机器学习等领域。它提供了丰富的数据结构和函数，方便用户进行数据处理和分析。

创建DataFrame

在使用Pandas获取DataFrame列值的平均数之前，我们需要先创建一个例子DataFrame。我们可以使用Pandas提供的DataFrame函数来创建DataFrame。下面是一个例子：

import pandas as pd

# 创建DataFrame
df = pd.DataFrame({'Name': ['Tom', 'Sam', 'Steve', 'Rob'], 
                   'Age': [25, 30, 32, 28], 
                   'Salary': [5000, 6000, 7000, 8000]})
print(df)

上述代码中，我们使用一个字典来创建DataFrame对象，其中字典的键表示DataFrame的列名，字典的值表示DataFrame的列值。

输出结果为：

    Name  Age  Salary
0    Tom   25    5000
1    Sam   30    6000
2  Steve   32    7000
3    Rob   28    8000

计算DataFrame列值的平均数

在Pandas中，我们可以使用mean()函数来计算DataFrame列值的平均数。下面是一个例子：

import pandas as pd

# 创建DataFrame
df = pd.DataFrame({'Name': ['Tom', 'Sam', 'Steve', 'Rob'], 
                   'Age': [25, 30, 32, 28], 
                   'Salary': [5000, 6000, 7000, 8000]})

# 计算Salary列的平均数
mean_salary = df['Salary'].mean()
print('Salary列的平均数为:', mean_salary)

输出结果为：

Salary列的平均数为: 6500.0

上述代码中，我们调用mean()函数来计算Salary列的平均数，并使用print()函数来输出结果。

需要注意的是，我们可以使用任何一列来计算平均数，如Age列的平均数。只需要将df[‘Salary’]替换为df[‘Age’]即可。

计算DataFrame多列的平均数

如果我们需要计算DataFrame中多列的平均数，可以使用mean()函数的axis参数。如果axis=0，表示对列进行计算，得到每列的平均数；如果axis=1，表示对行进行计算，得到每行的平均数。下面是一个例子：

import pandas as pd

# 创建DataFrame
df = pd.DataFrame({'Name': ['Tom', 'Sam', 'Steve', 'Rob'], 
                   'Age': [25, 30, 32, 28], 
                   'Salary': [5000, 6000, 7000, 8000]})

# 计算Age和Salary列的平均数
mean_age_salary = df[['Age', 'Salary']].mean(axis=0)
print('Age和Salary列的平均数为:\n', mean_age_salary)

输出结果为：

Age和Salary列的平均数为:
 Age         28.750
Salary    6500.000
dtype: float64

上述代码中，我们使用中括号[]来选择Age和Salary列，并使用mean()函数来计算平均数，axis参数的值为0。

去除空值后计算DataFrame列值的平均数

在实际数据处理中，我们常常会遇到缺失值。缺失值是指那些不完整或者不存在的数据。如果我们不做处理，会影响到数据的分析和模型的训练。在Pandas中，我们可以使用dropna()函数去除缺失值，然后再计算平均数。下面是一个例子：

import pandas as pd

# 创建DataFrame
df = pd.DataFrame({'Name': ['Tom', 'Sam', 'Steve', 'Rob'], 
                   'Age': [25, 30, 32, None], 
                   'Salary': [5000, 6000, None, 8000]})

# 去除空值
df_dropna = df.dropna()

# 计算Age列的平均数
mean_age = df_dropna['Age'].mean()
print('去除缺失值后的Age列的平均数为:', mean_age)

# 计算Salary列的平均数
mean_salary = df_dropna['Salary'].mean()
print('去除缺失值后的Salary列的平均数为:', mean_salary)

输出结果为：

去除缺失值后的Age列的平均数为: 29.0
去除缺失值后的Salary列的平均数为: 5500.0

上述代码中，我们使用dropna()函数去除缺失值，得到新的DataFrame对象df_dropna。然后，我们计算Age列和Salary列的平均数，并使用print()函数输出结果。

总结

本文介绍了如何使用Pandas计算DataFrame列值的平均数。我们可以使用mean()函数来计算平均数，并使用axis参数来计算多列的平均数。如果数据中存在缺失值，我们可以使用dropna()函数去除缺失值。Pandas提供了丰富的函数和工具，方便用户进行数据分析和处理。

Pandas 如何获取DataFrame列值的平均数

Pandas 如何获取DataFrame列值的平均数

创建DataFrame

计算DataFrame列值的平均数

计算DataFrame多列的平均数

去除空值后计算DataFrame列值的平均数

总结

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

Pandas 精品教程

回顶部

Pandas 如何获取DataFrame列值的平均数

创建DataFrame

计算DataFrame列值的平均数

计算DataFrame多列的平均数

去除空值后计算DataFrame列值的平均数

总结

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

Pandas 精品教程

回顶部

切换注册登录

用户名或邮箱

密码

切换登录注册

昵称

邮箱