Python数据清洗|极客教程

Python数据清洗

在数据分析和机器学习等领域中，数据清洗是非常重要的一步。数据清洗是指对原始数据进行处理，去除脏数据、填充缺失值、转换数据类型等操作，以确保数据质量。在Python中，有许多库可以帮助我们进行数据清洗，如pandas、numpy等。本文将详细介绍如何使用这些工具进行数据清洗。

数据清洗的步骤

数据清洗通常包括以下几个步骤：

缺失值处理：检测数据中的缺失值并对其进行处理，如填充缺失值或删除缺失值。
重复值处理：检测数据中的重复值并对其进行处理，如删除重复值。
异常值处理：检测数据中的异常值并对其进行处理，如剔除异常值或进行平滑处理。
数据格式转换：将数据转换为合适的格式，如将日期转换为datetime类型，将文本转换为数字类型等。
数据归一化：对数据进行归一化处理，使得不同特征的取值范围相同。

下面将逐步介绍如何使用Python进行这些数据清洗操作。

缺失值处理

缺失值是指数据中的某些字段缺少数值或信息的情况。处理缺失值的方法通常有两种：填充缺失值和删除缺失值。我们可以使用pandas库中的fillna()方法来填充缺失值，使用dropna()方法来删除缺失值。

import pandas as pd
import numpy as np

# 创建包含缺失值的DataFrame
data = {'A': [1, 2, np.nan, 4],
        'B': [5, np.nan, 7, 8]}
df = pd.DataFrame(data)

# 填充缺失值
df.fillna(0, inplace=True)
print(df)

# 删除缺失值
df.dropna(inplace=True)
print(df)

运行结果如下：

     A    B
0  1.0  5.0
1  2.0  0.0
2  0.0  7.0
3  4.0  8.0

     A    B
0  1.0  5.0
3  4.0  8.0

重复值处理

重复值是指数据中出现相同的记录。我们可以使用pandas库中的drop_duplicates()方法来删除重复值。

# 创建包含重复值的DataFrame
data = {'A': [1, 2, 2, 4],
        'B': [5, 6, 6, 8]}
df = pd.DataFrame(data)

# 删除重复值
df.drop_duplicates(inplace=True)
print(df)

运行结果如下：

异常值处理

异常值是指数据中与大部分数据明显不同的数值。处理异常值的方法通常有剔除异常值和平滑处理。剔除异常值可以使用pandas库中的条件筛选方法。

# 创建包含异常值的DataFrame
data = {'A': [1, 2, 15, 4],
        'B': [5, 6, 7, 8]}
df = pd.DataFrame(data)

# 剔除异常值
df = df[df['A'] < 10]
print(df)

运行结果如下：

数据格式转换

数据格式转换是指将数据转换为合适的格式，如将字符串转换为数字、将日期转换为datetime类型等。我们可以使用pandas库中的astype()方法和to_datetime()方法来进行数据格式转换。

# 创建包含不同数据类型的DataFrame
data = {'A': ['1', '2', '3'],
        'B': ['2020-01-01', '2020-01-02', '2020-01-03']}
df = pd.DataFrame(data)

# 将字符串转换为数字
df['A'] = df['A'].astype(int)

# 将字符串转换为datetime类型
df['B'] = pd.to_datetime(df['B'])
print(df)

运行结果如下：

   A          B
0  1 2020-01-01
1  2 2020-01-02
2  3 2020-01-03

数据归一化

数据归一化是指将数据的取值范围映射到[0, 1]或[-1, 1]之间。常用的归一化方法有最小-最大归一化和Z-score归一化。我们可以使用sklearn库中的MinMaxScaler和StandardScaler来进行数据归一化。

from sklearn.preprocessing import MinMaxScaler, StandardScaler

# 创建包含数值数据的DataFrame
data = {'A': [1, 2, 3, 4],
        'B': [10, 20, 30, 40]}
df = pd.DataFrame(data)

# 最小-最大归一化
scaler = MinMaxScaler()
df_scaled = scaler.fit_transform(df)
print(df_scaled)

# Z-score归一化
scaler = StandardScaler()
df_scaled = scaler.fit_transform(df)
print(df_scaled)

运行结果如下：

[[0.         0.        ]
 [0.33333333 0.33333333]
 [0.66666667 0.66666667]
 [1.         1.        ]]

[[-1.34164079 -1.34164079]
 [-0.4472136  -0.4472136 ]
 [ 0.4472136   0.4472136 ]
 [ 1.34164079  1.34164079]]