pandas mean|极客教程

pandas mean

在数据分析和处理中，计算某列数据的平均值是一项常见的需求。而pandas库提供了一个非常方便的方法来实现这个功能，即mean()函数。本文将详细介绍如何使用mean()函数来计算数据的平均值，以及一些相关的使用技巧和示例代码。

pandas库简介

pandas 是一个基于Python语言的数据分析工具，提供了一种快速、灵活和丰富数据结构，尤其适用于数据分析和处理。pandas主要的数据结构是Series和DataFrame，通过这两种数据结构可以方便地处理和分析数据。

使用`mean()`函数计算平均值

mean()函数是pandas库中用来计算平均值的函数，可以对列数据进行求平均操作。下面是一个简单的示例代码，展示如何使用mean()函数计算某列数据的平均值：

import pandas as pd

# 创建一个DataFrame
data = {'A': [1, 2, 3, 4, 5],
        'B': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)

# 计算列'A'的平均值
mean_A = df['A'].mean()
print(mean_A)

输出为：

3.0

在上面的示例中，首先创建了一个包含两列数据的DataFrame，然后使用mean()函数计算了列’A’的平均值，并将结果打印出来。

按行和列计算平均值

除了计算单列数据的平均值外，mean()函数还可以按行或列计算整个DataFrame的平均值。下面是一个示例代码，展示如何使用mean()函数按列计算DataFrame的平均值：

import pandas as pd

# 创建一个DataFrame
data = {'A': [1, 2, 3, 4, 5],
        'B': [10, 20, 30, 40, 50]}
df = pd.DataFrame(data)

# 计算每列的平均值
means = df.mean()
print(means)

输出为：

A     3.0
B    30.0
dtype: float64

在上面的示例中，使用mean()函数计算了DataFrame每列数据的平均值，并打印出了结果。

忽略缺失值计算平均值

在实际数据分析中，经常会遇到缺失值的情况。如果不处理缺失值，直接计算平均值会导致结果不准确。在pandas中，可以使用mean()函数的skipna参数来指定是否忽略缺失值进行计算。下面是一个示例代码，展示如何忽略缺失值计算平均值：

import pandas as pd
import numpy as np

# 创建一个包含缺失值的DataFrame
data = {'A': [1, 2, np.nan, 4, 5],
        'B': [10, np.nan, 30, 40, 50]}
df = pd.DataFrame(data)

# 计算每列的平均值（忽略缺失值）
means = df.mean(skipna=True)
print(means)

输出为：