Pandas GroupBy 操作：如何处理包含 NaN 值的数据分组|极客教程

Pandas GroupBy 操作：如何处理包含 NaN 值的数据分组

在数据分析中，分组操作是一项常见且重要的任务。Pandas 提供了强大的 GroupBy 功能，使我们能够轻松地对数据进行分组和聚合。然而，在实际数据处理中，我们经常会遇到包含 NaN（Not a Number）值的数据。本文将详细介绍如何在 Pandas 中使用 GroupBy 操作处理包含 NaN 值的数据，并提供多个实用示例。

1. Pandas GroupBy 基础

在深入探讨如何处理包含 NaN 值的 GroupBy 操作之前，让我们先回顾一下 Pandas GroupBy 的基础知识。

GroupBy 操作允许我们将数据按照一个或多个列进行分组，然后对每个分组应用聚合函数。这是数据分析中的一个关键步骤，可以帮助我们发现数据中的模式和趋势。

以下是一个简单的 GroupBy 示例：

import pandas as pd

# 创建示例数据
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Alice', 'Bob'],
    'age': [25, 30, 35, 40, 25, 30],
    'score': [80, 85, 90, 95, 82, 88]
}
df = pd.DataFrame(data)

# 按 name 列分组并计算平均分数
result = df.groupby('name')['score'].mean()

print("pandasdataframe.com - GroupBy 基础示例:")
print(result)

Output:

Pandas GroupBy 操作：如何处理包含 NaN 值的数据分组

在这个示例中，我们创建了一个包含姓名、年龄和分数的 DataFrame，然后按姓名分组并计算每个人的平均分数。

2. NaN 值在 GroupBy 中的处理

当数据中包含 NaN 值时，GroupBy 操作的行为可能会有所不同。默认情况下，Pandas 会在进行聚合操作时排除 NaN 值。这种行为通常是有益的，因为它可以防止 NaN 值影响计算结果。

让我们看一个包含 NaN 值的示例：

import pandas as pd
import numpy as np

# 创建包含 NaN 值的示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'value': [1, 2, np.nan, 4, 5, np.nan]
}
df = pd.DataFrame(data)

# 按 category 列分组并计算平均值
result = df.groupby('category')['value'].mean()

print("pandasdataframe.com - 包含 NaN 值的 GroupBy 示例:")
print(result)

Output:

Pandas GroupBy 操作：如何处理包含 NaN 值的数据分组

在这个示例中，我们创建了一个包含类别和值的 DataFrame，其中一些值是 NaN。当我们按类别分组并计算平均值时，Pandas 会自动忽略 NaN 值。

3. 使用 dropna 参数控制 NaN 值的处理

Pandas 提供了 dropna 参数，允许我们在 GroupBy 操作中控制 NaN 值的处理方式。这个参数可以应用于 groupby() 方法，有以下几个选项：

dropna=True（默认值）：排除包含 NaN 值的组。
dropna=False：保留所有组，包括那些只包含 NaN 值的组。

让我们看一个使用 dropna 参数的示例：

import pandas as pd
import numpy as np

# 创建包含 NaN 值的示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'C', 'C'],
    'value': [1, 2, np.nan, 4, np.nan, np.nan]
}
df = pd.DataFrame(data)

# 使用 dropna=True（默认行为）
result_default = df.groupby('category')['value'].mean()

# 使用 dropna=False
result_keep_nan = df.groupby('category', dropna=False)['value'].mean()

print("pandasdataframe.com - 使用 dropna 参数的示例:")
print("默认行为 (dropna=True):")
print(result_default)
print("\n保留 NaN 值 (dropna=False):")
print(result_keep_nan)

Output:

Pandas GroupBy 操作：如何处理包含 NaN 值的数据分组

在这个示例中，我们比较了使用 dropna=True（默认行为）和 dropna=False 的结果。当 dropna=False 时，即使一个组只包含 NaN 值，它也会被保留在结果中。

4. 处理分组键中的 NaN 值

到目前为止，我们主要关注了被聚合的列中的 NaN 值。但是，分组键（用于分组的列）中的 NaN 值也需要特别注意。默认情况下，Pandas 会将分组键中的 NaN 值视为一个单独的组。

让我们看一个示例：

import pandas as pd
import numpy as np

# 创建包含分组键中 NaN 值的示例数据
data = {
    'category': ['A', 'B', np.nan, 'B', 'A', np.nan],
    'value': [1, 2, 3, 4, 5, 6]
}
df = pd.DataFrame(data)

# 按 category 列分组并计算平均值
result = df.groupby('category')['value'].mean()

print("pandasdataframe.com - 分组键中包含 NaN 值的示例:")
print(result)

Output:

Pandas GroupBy 操作：如何处理包含 NaN 值的数据分组

在这个示例中，category 列（分组键）包含 NaN 值。Pandas 会将这些 NaN 值视为一个单独的组，并计算相应的平均值。

5. 使用 fillna 处理分组键中的 NaN 值

如果我们不希望将分组键中的 NaN 值视为单独的组，可以在进行 GroupBy 操作之前使用 fillna() 方法替换这些 NaN 值。这样可以将 NaN 值归类到一个特定的组中。

以下是一个示例：

import pandas as pd
import numpy as np

# 创建包含分组键中 NaN 值的示例数据
data = {
    'category': ['A', 'B', np.nan, 'B', 'A', np.nan],
    'value': [1, 2, 3, 4, 5, 6]
}
df = pd.DataFrame(data)

# 使用 fillna 替换分组键中的 NaN 值
df['category'] = df['category'].fillna('Unknown')

# 按 category 列分组并计算平均值
result = df.groupby('category')['value'].mean()

print("pandasdataframe.com - 使用 fillna 处理分组键中的 NaN 值:")
print(result)

Output:

Pandas GroupBy 操作：如何处理包含 NaN 值的数据分组

在这个示例中，我们将分组键 category 列中的 NaN 值替换为 ‘Unknown’。这样，原本的 NaN 值就会被归类到 ‘Unknown’ 组中。

6. 使用 transform 方法处理 NaN 值

transform 方法是 Pandas GroupBy 操作中的一个强大工具，它可以帮助我们在保持原始 DataFrame 结构的同时应用分组操作。当处理包含 NaN 值的数据时，transform 方法可以非常有用。

让我们看一个使用 transform 方法的示例：

import pandas as pd
import numpy as np

# 创建包含 NaN 值的示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'value': [1, 2, np.nan, 4, 5, np.nan]
}
df = pd.DataFrame(data)

# 使用 transform 方法计算每个类别的平均值
df['mean_value'] = df.groupby('category')['value'].transform('mean')

print("pandasdataframe.com - 使用 transform 方法处理 NaN 值:")
print(df)

Output:

Pandas GroupBy 操作：如何处理包含 NaN 值的数据分组

在这个示例中，我们使用 transform 方法计算每个类别的平均值，并将结果添加到原始 DataFrame 中。注意，即使原始 value 列中存在 NaN 值，transform 方法也会为每个类别计算平均值。

7. 使用 agg 方法进行多个聚合操作

agg 方法允许我们在一个 GroupBy 操作中执行多个聚合函数。当处理包含 NaN 值的数据时，这个方法可以帮助我们同时计算多个统计量，包括那些考虑和不考虑 NaN 值的统计量。

以下是一个使用 agg 方法的示例：

import pandas as pd
import numpy as np

# 创建包含 NaN 值的示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'value': [1, 2, np.nan, 4, 5, np.nan]
}
df = pd.DataFrame(data)

# 使用 agg 方法进行多个聚合操作
result = df.groupby('category')['value'].agg(['mean', 'count', 'size'])

print("pandasdataframe.com - 使用 agg 方法进行多个聚合操作:")
print(result)

Output:

Pandas GroupBy 操作：如何处理包含 NaN 值的数据分组

在这个示例中，我们使用 agg 方法同时计算了每个类别的平均值（忽略 NaN 值）、非 NaN 值的计数（count）和组的大小（size，包括 NaN 值）。

8. 使用自定义函数处理 NaN 值

有时，内置的聚合函数可能无法满足我们的特定需求。在这种情况下，我们可以使用自定义函数来处理包含 NaN 值的 GroupBy 操作。

让我们看一个使用自定义函数的示例：

import pandas as pd
import numpy as np

# 创建包含 NaN 值的示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'value': [1, 2, np.nan, 4, 5, np.nan]
}
df = pd.DataFrame(data)

# 定义自定义函数
def custom_agg(x):
    return pd.Series({
        'mean': x.mean(),
        'median': x.median(),
        'nan_count': x.isna().sum(),
        'non_nan_count': x.count()
    })

# 使用自定义函数进行 GroupBy 操作
result = df.groupby('category')['value'].apply(custom_agg)

print("pandasdataframe.com - 使用自定义函数处理 NaN 值:")
print(result)

Output:

Pandas GroupBy 操作：如何处理包含 NaN 值的数据分组

在这个示例中，我们定义了一个自定义函数 custom_agg，它计算了平均值、中位数、NaN 值的数量和非 NaN 值的数量。然后，我们将这个函数应用到 GroupBy 操作中。

9. 处理多列分组中的 NaN 值

在实际应用中，我们可能需要根据多个列进行分组。当这些列中包含 NaN 值时，情况会变得更加复杂。让我们看一个处理多列分组中 NaN 值的示例：

import pandas as pd
import numpy as np

# 创建包含多列和 NaN 值的示例数据
data = {
    'category1': ['A', 'B', 'A', 'B', 'A', 'B'],
    'category2': ['X', 'Y', np.nan, 'Y', 'X', np.nan],
    'value': [1, 2, 3, 4, 5, 6]
}
df = pd.DataFrame(data)

# 使用多列分组并处理 NaN 值
result = df.groupby(['category1', 'category2'], dropna=False)['value'].mean()

print("pandasdataframe.com - 处理多列分组中的 NaN 值:")
print(result)

Output:

Pandas GroupBy 操作：如何处理包含 NaN 值的数据分组

在这个示例中，我们使用两个类别列进行分组，其中 category2 包含 NaN 值。通过设置 dropna=False，我们可以保留包含 NaN 值的组。

10. 使用 reindex 填充缺失的组合

当使用多列分组时，可能会出现某些组合在数据中不存在的情况。我们可以使用 reindex 方法来填充这些缺失的组合。

以下是一个示例：

import pandas as pd
import numpy as np

# 创建包含多列和 NaN 值的示例数据
data = {
    'category1': ['A', 'B', 'A', 'B'],
    'category2': ['X', 'Y', 'Y', 'X'],
    'value': [1, 2, 3, 4]
}
df = pd.DataFrame(data)

# 进行分组操作
result = df.groupby(['category1', 'category2'])['value'].mean()

# 创建所有可能的组合
index = pd.MultiIndex.from_product([['A', 'B'], ['X', 'Y']], names=['category1', 'category2'])

# 使用 reindex 填充缺失的组合
filled_result = result.reindex(index, fill_value=np.nan)

print("pandasdataframe.com - 使用 reindex 填充缺失的组合:")
print(filled_result)

Output:

Pandas GroupBy 操作：如何处理包含 NaN 值的数据分组

在这个示例中，我们首先创建了一个包含部分组合的 DataFrame，然后进行分组操作。接着，我们创建了一个包含所有可能组合的 MultiIndex，并使用 reindex 方法来填充缺失的组合。

11. 使用 replace 方法处理特定的 NaN 值

有时，我们可能想要将特定的值（如空字符串或特定的字符串）视为 NaN 值。在这种情况下，我们可以使用 replace 方法来预处理数据。

以下是一个示例：

import pandas as pd
import numpy as np

# 创建包含特殊值的示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'value': [1, 2, 'N/A', 4, '', 6]
}
df = pd.DataFrame(data)

# 使用 replace 方法将特定值替换为 NaN
df['value'] = df['value'].replace(['N/A', ''], np.nan)

# 将 value 列转换为数值类型
df['value'] = pd.to_numeric(df['value'], errors='coerce')

# 进行分组操作
result = df.groupby('category')['value'].mean()

print("pandasdataframe.com - 使用 replace 方法处理特定的 NaN 值:")
print(result)

在这个示例中，我们首先使用 replace 方法将 ‘N/A’ 和空字符串替换为 NaN 值。然后，我们使用 pd.to_numeric 函数将 value 列转换为数值类型，同时将无法转换的值设置为 NaN。最后，我们进行分组操作并计算平均值。

12. 使用 mask 和 where 方法条件性地处理 NaN 值

mask 和 where 方法允许我们根据特定条件替换或保留值。这些方法在处理 NaN 值时非常有用，特别是当我们想要基于某些条件将值替换为 NaN 或将 NaN 替换为其他值时。

让我们看一个使用这些方法的示例：

import pandas as pd
import numpy as np

# 创建示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'value': [1, 20, 3, 40, 5, 60]
}
df = pd.DataFrame(data)

# 使用 mask 方法将大于 10 的值替换为 NaN
df['value_masked'] = df['value'].mask(df['value'] > 10)

# 使用 where 方法将小于等于 10 的值保留，其他替换为 NaN
df['value_where'] = df['value'].where(df['value'] <= 10)

# 进行分组操作
result = df.groupby('category').agg({
    'value': 'mean',
    'value_masked': 'mean',
    'value_where': 'mean'
})

print("pandasdataframe.com - 使用 mask 和 where 方法条件性地处理 NaN 值:")
print(result)

Output:

Pandas GroupBy 操作：如何处理包含 NaN 值的数据分组

在这个示例中，我们使用 mask 方法将大于 10 的值替换为 NaN，使用 where 方法将小于等于 10 的值保留，其他替换为 NaN。然后，我们对原始值和处理后的值进行分组计算平均值。

13. 使用 fillna 方法在分组操作中填充 NaN 值

有时，我们可能希望在进行分组操作之前或之后填充 NaN 值。fillna 方法提供了多种选项来实现这一目的。

以下是一个示例：

import pandas as pd
import numpy as np

# 创建包含 NaN 值的示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'value': [1, np.nan, 3, np.nan, 5, 6]
}
df = pd.DataFrame(data)

# 使用 fillna 方法填充 NaN 值（使用分组平均值）
df['value_filled'] = df.groupby('category')['value'].transform(lambda x: x.fillna(x.mean()))

# 进行分组操作
result = df.groupby('category').agg({
    'value': 'mean',
    'value_filled': 'mean'
})

print("pandasdataframe.com - 使用 fillna 方法在分组操作中填充 NaN 值:")
print(result)

Output:

Pandas GroupBy 操作：如何处理包含 NaN 值的数据分组

在这个示例中，我们首先使用 groupby 和 transform 方法计算每个类别的平均值，然后使用这些平均值来填充相应类别中的 NaN 值。最后，我们对原始值和填充后的值进行分组计算平均值。

14. 使用 interpolate 方法处理时间序列数据中的 NaN 值

当处理时间序列数据时，我们可能会遇到需要插值的 NaN 值。Pandas 的 interpolate 方法提供了多种插值选项，可以在分组操作中使用。

让我们看一个示例：

import pandas as pd
import numpy as np

# 创建包含 NaN 值的时间序列数据
dates = pd.date_range('2023-01-01', periods=6)
data = {
    'category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'date': dates,
    'value': [1, np.nan, np.nan, 4, 5, np.nan]
}
df = pd.DataFrame(data)

# 设置日期索引
df.set_index('date', inplace=True)

# 使用 interpolate 方法进行插值
df['value_interpolated'] = df.groupby('category')['value'].transform(lambda x: x.interpolate())

# 进行分组操作
result = df.groupby('category').agg({
    'value': 'mean',
    'value_interpolated': 'mean'
})

print("pandasdataframe.com - 使用 interpolate 方法处理时间序列数据中的 NaN 值:")
print(result)

Output:

Pandas GroupBy 操作：如何处理包含 NaN 值的数据分组

在这个示例中，我们创建了一个包含日期、类别和值的 DataFrame，其中一些值是 NaN。我们使用 interpolate 方法对每个类别内的值进行插值，然后比较原始值和插值后的平均值。

15. 使用 groupby 和 apply 方法自定义 NaN 处理逻辑

有时，我们可能需要更复杂的逻辑来处理包含 NaN 值的分组数据。在这种情况下，我们可以结合使用 groupby 和 apply 方法来实现自定义的处理逻辑。

以下是一个示例：

import pandas as pd
import numpy as np

# 创建包含 NaN 值的示例数据
data = {
    'category': ['A', 'B', 'A', 'B', 'A', 'B'],
    'value1': [1, np.nan, 3, np.nan, 5, 6],
    'value2': [np.nan, 2, np.nan, 4, 5, np.nan]
}
df = pd.DataFrame(data)

# 定义自定义函数来处理 NaN 值
def custom_nan_handler(group):
    result = group.copy()
    result['value1_filled'] = group['value1'].fillna(group['value1'].mean())
    result['value2_filled'] = group['value2'].fillna(group['value2'].median())
    return result

# 使用 groupby 和 apply 方法应用自定义函数
result = df.groupby('category').apply(custom_nan_handler)

print("pandasdataframe.com - 使用 groupby 和 apply 方法自定义 NaN 处理逻辑:")
print(result)

在这个示例中，我们定义了一个自定义函数 custom_nan_handler，它对每个分组内的 value1 列使用平均值填充 NaN，对 value2 列使用中位数填充 NaN。然后，我们使用 groupby 和 apply 方法将这个函数应用到每个分组。