Pandas基于列索引重命名Dataframe列

在本文中，我们将介绍使用Pandas库基于列索引来重命名Dataframe的列。重命名列可以使列名更明确，更易于理解，或者使它们更适合具体的分析任务。我们将提供一些实用的示例以演示如何通过Pandas轻松重命名列名。

导入Pandas库和数据

为了开始这个例子，我们将使用Pandas导入一个数据集。在这里，我们将使用Iris数据集，它包含了花的四个度量：花萼长度，花萼宽度，花瓣长度和花瓣宽度，这些度量让我们可以分类不同种类的鸢尾花。

import pandas as pd

# 读取数据
data_url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
header_list = ["sepal_length", "sepal_width", "petal_length", "petal_width", "class"]
df = pd.read_csv(data_url, names=header_list)
df.head()

输出结果：

	sepal_length	sepal_width	petal_length	petal_width	class
0	5.1	3.5	1.4	0.2	Iris-setosa
1	4.9	3.0	1.4	0.2	Iris-setosa
2	4.7	3.2	1.3	0.2	Iris-setosa
3	4.6	3.1	1.5	0.2	Iris-setosa
4	5.0	3.6	1.4	0.2	Iris-setosa

通过列索引重命名列

首先，我们需要了解在Pandas中如何用列索引来引用列。从上面的输出结果中，我们可以看到每列前面都有一个数字，这些数字就是列的索引。在这个例子中，”sepal_length”列的索引为0，”sepal_width”列的索引为1，以此类推。

处理数据时，我们可以通过在方括号中输入列的索引来选择特定的列。下面是如何通过列索引引用第一列和第二列：

# 列索引引用第一列
df[0]

#列索引引用第二列
df[1]

输出结果：

	0
0	5.1
1	4.9
2	4.7
3	4.6
4	5.0

此外，我们可以使用.iloc()方法来基于整数位置选择列。下面的示例基于列索引选择第一列和第二列：

# 基于整数位置选择第一列
df.iloc[:,0]

# 基于整数位置选择第二列
df.iloc[:,1]

输出结果：

	sepal_length
0	5.1
1	4.9
2	4.7
3	4.6
4	5.0

重命名Pandas Dataframe的列的最简单方法是使用rename()方法。我们可以通过指定columns参数来重命名列。下面的示例使用列索引0、1、2和3分别代表”sepal_length”，”sepal_width”，”petal_length”和”petal_width”这些列：

df.rename(columns={0: "length_1", 1: "width_1", 2: "length_2", 3: "width_2"}, inplace=True)
df.head()

输出结果：

	length_1	width_1	length_2	width_2	class
0	5.1	3.5	1.4	0.2	Iris-setosa
1	4.9	3.0	1.4	0.2	Iris-setosa
2	4.7	3.2	1.3	0.2	Iris-setosa
3	4.6	3.1	1.5	0.2	Iris-setosa
4	5.0	3.6	1.4	0.2	Iris-setosa

在这个示例中，我们将第一列重命名为”length_1″，第二列重命名为”width_1″，第三列重命名为”length_2″，第四列重命名为”width_2″。我们传递一个字典作为参数来重新命名每个列。我们使用了inplace=True参数来改变原始数据框而不是创建一个副本。

重新命名所有列

我们也可以使用columns属性来重命名所有列。下面的示例将使用”sep_len”，”sep_wid”，”pet_len”和”pet_wid”这些标签来重命名所有的列。

df.columns = ["sep_len", "sep_wid", "pet_len", "pet_wid", "class"]
df.head()

输出结果：

	sep_len	sep_wid	pet_len	pet_wid	class
0	5.1	3.5	1.4	0.2	Iris-setosa
1	4.9	3.0	1.4	0.2	Iris-setosa
2	4.7	3.2	1.3	0.2	Iris-setosa
3	4.6	3.1	1.5	0.2	Iris-setosa
4	5.0	3.6	1.4	0.2	Iris-setosa

在这个示例中，我们使用columns属性来分配列标签。由于列数必须与标签的数量相同，因此在此示例中，我们需要将5个列与5个标签匹配。

基于其他条件重命名列

如果要基于其他条件重命名列，则需要使用Pandas的更复杂的方法。下面的示例展示了如何根据条件重命名列。假设我们有一个名为”df”的数据框，其中包含了两个列，”a”和”b”。我们想要重命名”b”列，但我们只希望重命名列的最后三个字符。下面的代码演示了如何使用str.replace()和正则表达式来决定要替换哪些字符串。

import re

df = pd.DataFrame({"Name":["A1","B1","C1","D1","E1"],
                   "a":[1,2,3,4,5],
                   "b":[10,20,30,40,50]})

# 列名以"1"结尾的列
cols_to_rename = df.columns[df.columns.str.endswith("1")]

# 将列名的最后三个字符替换为"one"
new_cols = [re.sub("1$", "one", c) for c in cols_to_rename]

# 将字典传递给rename()
rename_dict = dict(zip(cols_to_rename, new_cols))
df.rename(columns=rename_dict, inplace=True)
df.head()

输出结果：