如何在 pandas 中使用 fillna方法的subset参数来指定填充缺失值的子集|极客教程

如何在 pandas 中使用 fillna方法的subset参数来指定填充缺失值的子集

在数据分析中，处理缺失值是一个常见的问题。Pandas 提供了多种方法来处理 DataFrame 中的缺失值，其中 fillna() 方法是一个非常强大的工具，它可以让我们填充缺失值。在本文中，我们将详细探讨如何在 pandas 中使用 fillna() 方法的 subset 参数来指定填充缺失值的子集。

1. 基本使用

fillna() 方法可以用于填充 pandas DataFrame 中的 NA/NaN 值。这个方法不仅可以填充单个值，还可以通过字典、Series 或 DataFrame 来填充不同的缺失值。

示例代码 1: 填充单个值

import pandas as pd

data = {'Name': ['Alice', 'Bob', None, 'David'],
        'Age': [24, 27, 22, 29],
        'City': ['New York', 'Los Angeles', 'Chicago', None]}
df = pd.DataFrame(data)
df.fillna('Missing')
print(df)

Output:

如何在 pandas 中使用 fillna方法的subset参数来指定填充缺失值的子集

示例代码 2: 使用字典填充不同列的不同值

import pandas as pd

data = {'Name': ['Alice', 'Bob', None, 'David'],
        'Age': [24, 27, 22, 29],
        'City': ['New York', 'Los Angeles', 'Chicago', None]}
df = pd.DataFrame(data)
df.fillna({'Name': 'Unknown', 'City': 'Unknown City'})
print(df)

Output:

如何在 pandas 中使用 fillna方法的subset参数来指定填充缺失值的子集

2. 使用 subset 参数

subset 参数允许我们指定一个列名列表，这样 fillna() 方法只会在这些列中填充缺失值。这在数据集中只有部分列需要处理缺失值时非常有用。

示例代码 3: 在特定列使用 fillna

import pandas as pd

data = {'Name': ['Alice', 'Bob', None, 'David'],
        'Age': [24, 27, 22, 29],
        'City': ['New York', 'Los Angeles', 'Chicago', None]}
df = pd.DataFrame(data)
df.fillna({'City': 'No City'}, subset=['City'])
print(df)

示例代码 4: 在多个列使用 fillna

import pandas as pd

data = {'Name': ['Alice', 'Bob', None, 'David'],
        'Age': [24, 27, 22, 29],
        'City': ['New York', 'Los Angeles', 'Chicago', None]}
df = pd.DataFrame(data)
df.fillna({'Name': 'No Name', 'City': 'No City'}, subset=['Name', 'City'])
print(df)

3. 结合其他方法使用

fillna() 方法可以与其他 pandas 方法结合使用，例如 groupby() 或 apply()，来进行更复杂的数据填充操作。

示例代码 5: 使用 groupby 填充平均值

import pandas as pd

data = {'Group': ['A', 'A', 'B', 'B'],
        'Value': [10, None, 20, 30]}
df = pd.DataFrame(data)
df['Value'] = df.groupby('Group')['Value'].transform(lambda x: x.fillna(x.mean()))
print(df)

Output:

如何在 pandas 中使用 fillna方法的subset参数来指定填充缺失值的子集

示例代码 6: 使用 apply 填充中位数

import pandas as pd

data = {'Group': ['A', 'A', 'B', 'B'],
        'Value': [10, None, 20, 30]}
df = pd.DataFrame(data)
df['Value'] = df['Value'].fillna(df.groupby('Group')['Value'].transform('median'))
print(df)

Output:

如何在 pandas 中使用 fillna方法的subset参数来指定填充缺失值的子集

4. 处理特定类型的数据

在处理特定类型的数据时，如时间序列数据，我们可能需要使用不同的策略来填充缺失值。

示例代码 7: 时间序列数据向前填充

import pandas as pd

dates = pd.date_range('20210101', periods=6)
data = {'Date': dates, 'Value': [1, None, 3, 4, None, 6]}
df = pd.DataFrame(data)
df.set_index('Date', inplace=True)
df.fillna(method='ffill')
print(df)

示例代码 8: 时间序列数据向后填充

import pandas as pd

dates = pd.date_range('20210101', periods=6)
data = {'Date': dates, 'Value': [1, None, 3, 4, None, 6]}
df = pd.DataFrame(data)
df.set_index('Date', inplace=True)
df.fillna(method='bfill')
print(df)

5. 使用 interpolate 方法

除了 fillna()，pandas 还提供了 interpolate() 方法，这可以用于执行更复杂的插值操作。

示例代码 9: 线性插值

import pandas as pd

data = {'Value': [1, None, 3, 4, None, 6]}
df = pd.DataFrame(data)
df.interpolate()
print(df)

Output:

如何在 pandas 中使用 fillna方法的subset参数来指定填充缺失值的子集

示例代码 10: 时间插值

import pandas as pd

dates = pd.date_range('20210101', periods=6)
data = {'Date': dates, 'Value': [1, None, 3, 4, None, 6]}
df = pd.DataFrame(data)
df.set_index('Date', inplace=True)
df.interpolate(method='time')
print(df)

Output:

如何在 pandas 中使用 fillna方法的subset参数来指定填充缺失值的子集