Python缺失值填充|极客教程

Python缺失值填充

1. 简介

缺失值是指数据集中某些特征的值缺失或未记录的情况。在进行数据分析和建模时，缺失值往往会影响到结果的准确性和可靠性，因此需要进行填充处理。Python提供了多种处理缺失值的方法，本文将详细介绍这些方法及其使用示例。

2. 数据集处理前的准备

在开始填充缺失值之前，首先需要准备一个需要处理的数据集。这里我们先构造一个简单的示例数据集：

import pandas as pd
import numpy as np

data = pd.DataFrame({'A': [1, np.nan, 3, 4, 5],
                     'B': [6, 7, np.nan, 9, 10],
                     'C': [11, 12, 13, np.nan, 15]})

上述代码使用pandas库创建了一个包含三列的数据集data，其中存在缺失值np.nan。

3. 填充缺失值的方法

3.1 删除缺失值的行或列

删除缺失值的行或列是最简单的处理方式之一。pandas库提供了dropna函数来实现这个功能。

# 删除含有缺失值的行
data_dropna_row = data.dropna(axis=0)
print(data_dropna_row)

# 删除含有缺失值的列
data_dropna_col = data.dropna(axis=1)
print(data_dropna_col)

运行结果如下：

     A    B     C
0  1.0  6.0  11.0

Empty DataFrame
Columns: []
Index: [0, 1, 2, 3, 4]

从结果中可以看出，删除了含有缺失值的行后，只剩下第一行；删除了含有缺失值的列后，数据集变为空。

3.2 用常数填充缺失值

我们可以使用一个常数填充缺失值，常见的常数填充方式有零填充和均值填充。

# 使用零填充缺失值
data_fill_zero = data.fillna(0)
print(data_fill_zero)

# 使用均值填充缺失值
data_fill_mean = data.fillna(data.mean())
print(data_fill_mean)

运行结果如下：

     A     B     C
0  1.0   6.0  11.0
1  0.0   7.0  12.0
2  3.0   0.0  13.0
3  4.0   9.0   0.0
4  5.0  10.0  15.0

     A     B     C
0  1.0   6.0  11.0
1  3.25   7.0  12.0
2  3.00   8.0  13.0
3  4.00   9.0  12.75
4  5.0  10.0  15.0

从结果可以看出，使用零填充缺失值后，所有缺失值被替换为零；使用均值填充缺失值后，缺失值被替换为对应列的均值。

3.3 用前一个或后一个非缺失值填充

我们可以使用前一个或后一个非缺失值填充缺失值，这种方法常用于时间序列数据的处理。

# 使用前一个非缺失值填充
data_fill_prev = data.fillna(method='ffill')
print(data_fill_prev)

# 使用后一个非缺失值填充
data_fill_next = data.fillna(method='bfill')
print(data_fill_next)

运行结果如下：

     A    B     C
0  1.0  6.0  11.0
1  1.0  7.0  12.0
2  3.0  7.0  13.0
3  4.0  9.0  13.0
4  5.0  10.0  15.0

     A     B     C
0  1.0   6.0  11.0
1  3.0   7.0  12.0
2  3.0   9.0  13.0
3  4.0   9.0  15.0
4  5.0  10.0  15.0

从结果可以看出，使用前一个非缺失值填充后，每个缺失值被替换为它前面的非缺失值；使用后一个非缺失值填充后，每个缺失值被替换为它后面的非缺失值。

3.4 用插值方法填充缺失值

插值方法根据已知值进行推断，从而填充缺失值。pandas的interpolate函数提供了多种插值方法。

# 线性插值
data_linear = data.interpolate(method='linear')
print(data_linear)

# 拉格朗日插值
data_lagrange = data.interpolate(method='lagrange')
print(data_lagrange)

运行结果如下：

     A     B     C
0  1.0   6.0  11.0
1  2.0   7.0  12.0
2  3.0   8.0  13.0
3  4.0   9.0  14.0
4  5.0  10.0  15.0

         A          B          C
0  1.000000   6.000000  11.000000
1  1.960784   7.000000  12.000000
2  3.000000   7.082353  13.000000
3  4.000000   9.000000  13.988235
4  5.000000  10.000000  15.000000

从结果可以看出，线性插值是根据已知值之间的线性关系进行推断的；拉格朗日插值是根据数据集中所有已知值的权重进行推断的。

4. 小结

本文介绍了Python中处理缺失值的方法，并给出了常见方法的示例代码和运行结果。这些方法包括删除缺失值的行或列、用常数填充缺失值、用前一个或后一个非缺失值填充，以及用插值方法填充缺失值。根据实际需求和数据集的特点，我们可以选择合适合的方法来填充缺失值。在数据分析和建模过程中，合理处理缺失值可以提高预测的准确性和模型的可靠性。

需要注意的是，填充缺失值只是处理缺失值的一种方法，具体选择哪种方法还需要根据数据的特点和实际情况来决定。在实际应用中，还可以结合可视化分析、特征工程等方法进行综合处理。

除了pandas库提供的方法，还有其他库也提供了处理缺失值的功能，如scikit-learn库中的SimpleImputer类，它可以根据指定的策略填充缺失值。另外，missingno库可以用于可视化缺失值的分布情况，从而有助于选择合适的填充方法。

在实际应用中，处理缺失值之前，我们还需要对数据进行预处理，如数据清洗、数据转换等操作。这样可以提高数据质量，进一步提升模型的性能。

综上所述，Python提供了多种处理缺失值的方法，我们可以根据需要选择合适的方法进行填充。在实际应用中，需要充分理解数据集的特点和目标，综合考虑多种因素，进行灵活合理的缺失值处理，以提高数据分析和建模的效果。