Pandas 重命名列|极客教程

Pandas 重命名列

Pandas 是一个强大的数据处理库，常被用于数据分析和清洗。在实际的数据处理过程中，我们经常需要对数据的列进行重命名。本文将详细介绍在 Pandas 中如何进行列的重命名操作。

为什么需要重命名列

在实际的数据处理过程中，原始数据的列名可能并不符合我们的需求。列名可能过长、不规范、不易理解，或者存在命名冲突等问题。为了更好地进行数据处理和分析，我们需要对列进行重命名，使其具有更好的可读性和准确性。

此外，在数据合并、拼接、连接等操作中，不同数据集的列名可能有冲突，这时也需要对列进行重命名，以避免出现冲突。

使用 `rename()` 方法重命名列

在 Pandas 中，我们可以使用 rename() 方法来实现列的重命名操作。rename() 方法用于修改行索引或列标签，并返回一个新的 DataFrame 对象。下面是 rename() 方法的基本语法：

df.rename(columns={"old_name": "new_name"}, inplace=True)

上面的代码将把 DataFrame 对象 df 中名为 "old_name" 的列重命名为 "new_name"。

其中，columns 参数用于指定需要重命名的列名，这里使用了字典的形式，将需要替换的列名和目标列名以映射关系的方式进行了定义。

需要注意的是，上述代码中的 inplace=True 参数表示在原地进行修改。如果不指定该参数或将其设置为 False，则 rename() 方法会返回一个新的 DataFrame，而不会修改原来的对象。

举个示例，假设我们有一个包含学生信息的 DataFrame，其中的列名为 "name"、"age" 和 "grade"，现在我们希望将 "grade" 这一列重命名为 "score"。可以按照如下方式进行操作：

import pandas as pd

# 创建 DataFrame
data = {
    "name": ["Tom", "Jerry", "Alice"],
    "age": [10, 11, 12],
    "grade": [90, 95, 88]
}
df = pd.DataFrame(data)

# 重命名列
df.rename(columns={"grade": "score"}, inplace=True)

# 输出结果
print(df)

运行以上代码，可以得到如下结果：

    name  age  score
0    Tom   10     90
1  Jerry   11     95
2  Alice   12     88

可以看到，原来的列名 "grade" 已经成功地重命名为了 "score"。

需要注意的是， rename() 方法允许同时对多个列进行重命名。在 columns 参数中，可以一次性指定多个映射关系。例如，我们可以将 "age" 列重命名为 "years"：

df.rename(columns={"grade": "score", "age": "years"}, inplace=True)

使用 `columns` 属性直接重命名列

除了 rename() 方法，我们还可以直接通过给 columns 属性赋值的方式进行列的重命名。例如，继续使用上面的示例，我们可以将 "name" 列重命名为 "Full Name"：

df.columns = ["Full Name", "age", "score"]

此时，DataFrame 对象的列名将会被替换为 ["Full Name", "age", "score"]。

需要注意的是，使用该方法进行重命名时，必须指定所有的列名，并且列表中的元素个数必须与原来的列数相同。否则，会报错。

使用 `add_prefix()` 和 `add_suffix()` 方法添加前缀或后缀

除了直接重命名列名，我们还可以使用 add_prefix() 和 add_suffix() 方法在列名前面或后面添加前缀或后缀。这在避免列名冲突时非常有用。

add_prefix() 方法用于在列名前面添加前缀，示例如下：

df = df.add_prefix("new_")

通过这行代码，DataFrame 中的每一列的列名都会在前面添加上 "new_" 前缀。

类似地，add_suffix() 方法用于在列名后面添加后缀：

df = df.add_suffix("_new")

通过这行代码，DataFrame 中的每一列的列名都会在后面添加上 _new 后缀。

举个示例，假设我们有一个 DataFrame，其中包含 "name"、"age" 和 "score" 三列，现在我们想在每一列的名字前面都添加上 "student_" 前缀。可以按照如下方式进行操作：

import pandas as pd

# 创建 DataFrame
data = {
    "name": ["Tom", "Jerry", "Alice"],
    "age": [10, 11, 12],
    "score": [90, 95, 88]
}
df = pd.DataFrame(data)

# 添加前缀
df = df.add_prefix("student_")

# 输出结果
print(df)

运行以上代码，可以得到如下结果：

  student_name  student_age  student_score
0          Tom           10             90
1        Jerry           11             95
2        Alice           12             88

可以看到，每一列的列名都在前面添加上了 "student_" 前缀。

使用列表推导式批量重命名列

在实际的数据处理中，我们有时需要对多个列进行批量重命名，此时可以使用列表推导式来简化重命名的过程。

假设我们有一个包含学生信息的 DataFrame，其中的列名为 "name1"、"age2"、"score3" 等，我们希望将这些列名重命名为 "name"、"age"、"score" 等。可以按照如下方式进行操作：

# 获取原始列名
original_columns = df.columns

# 创建新列名
new_columns = [column[:-1] for column in original_columns]

# 重命名列
df.columns = new_columns

通过以上代码，我们首先使用 df.columns 获取原始的列名列表。然后，使用列表推导式 [column[:-1] for column in original_columns] 创建新的列名列表，通过对原始列名进行切片操作去除末尾的数字。

最后，将新的列名列表赋值给 df.columns，即可完成批量重命名的操作。

小结

本文详细介绍了在 Pandas 中进行列的重命名操作。我们通过 rename() 方法以及直接赋值 columns 属性的方式进行了列的重命名，还介绍了如何使用 add_prefix() 和 add_suffix() 方法给列名添加前缀和后缀。此外，我们还通过列表推导式来实现了批量重命名列的操作。

在实际的数据处理过程中，对列进行重命名是非常常见的操作之一。通过重命名列，可以使数据更具可读性、标准化和统一，便于后续的数据分析和处理。

总结一下，在Pandas中进行列重命名的方法有以下几种：

使用rename()方法：利用rename()方法可以对单个列或多个列进行重命名操作。通过将列名与新列名建立映射关系的方式，实现列的重命名。例如：
```
df.rename(columns={"old_name": "new_name"}, inplace=True)
```
使用columns属性直接赋值：通过直接给columns属性赋值的方式，可以一次性对所有列进行重命名。需要注意的是，必须指定所有的列名，并且列表中的元素个数必须与原来的列数相同。例如：
```
df.columns = ["new_name1", "new_name2", "new_name3"]
```
使用add_prefix()和add_suffix()方法：利用add_prefix()方法可以在列名前面添加前缀，而add_suffix()方法可以在列名后面添加后缀。这在避免列名冲突时非常有用。例如：
```
df = df.add_prefix("prefix_")
df = df.add_suffix("_suffix")
```
使用列表推导式批量重命名列：通过使用列表推导式，可以对多个列进行批量重命名。首先获取原始列名列表，然后使用列表推导式根据需要的命名规则生成新的列名列表，最后对列名进行赋值。例如：
```
original_columns = df.columns
new_columns = [column + "_new" for column in original_columns]
df.columns = new_columns
```