pandas 重置索引|极客教程

pandas 重置索引

在使用 Pandas 进行数据处理时，有时候我们可能会需要对数据进行重置索引的操作。重置索引是指将原先的索引重新排列，让它变回默认的整数索引，同时原先的索引会被转为一列数据。

在本文中，我们将详细讨论 Pandas 中如何对 DataFrame 进行重置索引操作，包括使用 reset_index() 方法的不同参数设置以及一些实际应用场景。

为什么需要重置索引？

在 Pandas 中，每个 DataFrame 和 Series 都有一个索引，默认情况下是整数索引。然而，在数据处理过程中，我们可能进行了一系列的操作，导致索引变得凌乱或者需要重新排列。这时候就需要使用重置索引的操作来重新设置索引。

另外，有时候我们可能会将索引设置为某一列数据，而后又需要将该列数据还原为默认的整数索引，这时候也需要用到重置索引的操作。

`reset_index()` 方法的基本用法

在 Pandas 中，可以使用 reset_index() 方法来重置索引。下面是该方法的基本语法：

dataframe.reset_index(level=None, drop=False, inplace=False)

level：指定要重置索引的索引级别，默认为所有索引级别。可以传入整数、字符串或列表。
drop：默认为 False，在重置索引的同时，是否丢弃原先的索引。
inplace：默认为 False，如果为 True，则直接在原 DataFrame 上进行修改，而不返回新的 DataFrame。

让我们通过一个示例来具体演示 reset_index() 方法的基本用法：

import pandas as pd

# 创建一个 DataFrame
data = {'A': [1, 2, 3],
        'B': [4, 5, 6]}
df = pd.DataFrame(data)

# 设置索引
df.set_index('A', inplace=True)

print("原始数据：")
print(df)

# 重置索引
df_reset = df.reset_index()

print("\n重置索引后的数据：")
print(df_reset)

运行以上代码，可以得到如下输出：

原始数据：
   B
A   
1  4
2  5
3  6

重置索引后的数据：
   A  B
0  1  4
1  2  5
2  3  6

重设索引的多层级索引

当 DataFrame 的索引是多层级索引时，我们可以通过设置 level 参数来指定要重置的索引层级。level 参数可以接受整数、字符串或列表。

接下来，让我们通过一个示例来演示如何重置多层级索引：

import pandas as pd

# 创建一个多层级索引的 DataFrame
arrays = [['A', 'A', 'B', 'B'], [1, 2, 1, 2]]
index = pd.MultiIndex.from_arrays(arrays, names=('first', 'second'))
df = pd.DataFrame({'C': [3, 4, 5, 6]}, index=index)

print("原始数据：")
print(df)

# 重置第一层级索引
df_reset = df.reset_index(level='first')

print("\n重置索引后的数据：")
print(df_reset)

运行以上代码，可以得到如下输出：

原始数据：
             C
first second   
A     1       3
      2       4
B     1       5
      2       6

重置索引后的数据：
       first  C
second         
1          A  3
2          A  4
1          B  5
2          B  6

丢弃原先的索引

在使用 reset_index() 方法时，drop 参数默认为 False，也就是重置索引的同时会保留原先的索引。如果我们想要丢弃原先的索引，可以将 drop 参数设置为 True。

接下来，让我们通过一个示例来演示如何丢弃原先的索引：

import pandas as pd

# 创建一个 DataFrame
data = {'A': [1, 2, 3],
        'B': [4, 5, 6]}
df = pd.DataFrame(data)

# 设置索引
df.set_index('A', inplace=True)

print("原始数据：")
print(df)

# 重置索引并丢弃原先的索引
df_reset = df.reset_index(drop=True)

print("\n重置索引并丢弃原先的索引后的数据：")
print(df_reset)

运行以上代码，可以得到如下输出：

原始数据：
   B
A   
1  4
2  5
3  6

重置索引并丢弃原先的索引后的数据：
   B
0  4
1  5
2  6

直接在原 DataFrame 上进行修改

在使用 reset_index() 方法时，inplace 参数默认为 False，也就是会返回一个新的 DataFrame，而原 DataFrame 不会发生变化。如果我们想要在原 DataFrame 上直接修改，可以将 inplace 参数设置为 True。

下面让我们通过一个示例来演示如何在原 DataFrame 上直接修改：

import pandas as pd

# 创建一个 DataFrame
data = {'A': [1, 2, 3],
        'B': [4, 5, 6]}
df = pd.DataFrame(data)

# 设置索引
df.set_index('A', inplace=True)

print("原始数据：")
print(df)

# 在原 DataFrame 上直接重置索引
df.reset_index(inplace=True)

print("\n在原 DataFrame 上直接重置索引后的数据：")
print(df)

运行以上代码，可以得到如下输出：

原始数据：
   B
A   
1  4
2  5
3  6

在原 DataFrame 上直接重置索引后的数据：
   A  B
0  1  4
1  2  5
2  3  6

实际应用场景

重置索引的操作在数据处理中是非常常见的，特别是在数据合并、连接、透视表等场景下。下面我们来看一个实际案例来说明重置索引的用途。

假设我们有两个 DataFrame，分别表示不同学科的成绩表。我们想要合并这两张表，并且得到一个新的表，其中索引表示学生姓名，列表示各学科的成绩。

首先，我们准备两个示例 DataFrame，分别表示数学和英语的成绩表：

import pandas as pd

# 创建数学成绩表
math_data = {'Student': ['Alice', 'Bob', 'Charlie'],
             'Math_Score': [90, 85, 88]}
math_df = pd.DataFrame(math_data)

# 创建英语成绩表
english_data = {'Student': ['Alice', 'David', 'Emma'],
                'English_Score': [95, 92, 87]}
english_df = pd.DataFrame(english_data)

print("数学成绩表：")
print(math_df)

print("\n英语成绩表：")
print(english_df)

运行以上代码，可以得到如下输出：

数学成绩表：
   Student  Math_Score
0    Alice          90
1      Bob          85
2  Charlie          88

英语成绩表：
  Student  English_Score
0   Alice             95
1   David             92
2    Emma             87

接下来，我们将这两张表合并，并重置索引，以学生姓名为索引：

# 合并两张成绩表
merged_df = pd.merge(math_df, english_df, on='Student', how='outer')

# 重置索引
merged_df.set_index('Student', inplace=True)

print("\n合并后的成绩表：")
print(merged_df)

运行以上代码，可以得到如下输出：

合并后的成绩表：
         Math_Score  English_Score
Student                            
Alice            90             95
Bob              85            NaN
Charlie          88            NaN
David           NaN             92
Emma            NaN             87

通过重置索引，我们得到了一个新的表，其中学生姓名作为索引，分别列出了他们的数学和英语成绩。这样的操作能够让数据更清晰地呈现，方便后续的分析和处理。