Pandas concat reset index|极客教程

Pandas concat reset index

在数据处理和分析中，经常需要将多个数据集合并为一个大的数据集，以便进行统一的处理和分析。Pandas 是 Python 数据分析库中一个非常重要的工具，它提供了非常丰富的数据结构和数据操作功能。本文将详细介绍如何使用 Pandas 的 concat 函数来合并数据，并通过 reset_index 方法来重新设置数据的索引。这两个功能在数据预处理中非常常见，合理使用它们可以极大地简化数据处理的工作。

1. pandas concat 的基本使用

concat 函数是 pandas 中用于合并数据的一个非常重要的函数，它可以沿着一条轴将多个对象堆叠到一起。使用 concat 可以非常灵活地在不同的维度上合并数据，比如行合并或列合并。

示例代码 1：基本的行合并

import pandas as pd

# 创建两个 DataFrame
df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
}, index=[0, 1, 2, 3])

df2 = pd.DataFrame({
    'A': ['A4', 'A5', 'A6', 'A7'],
    'B': ['B4', 'B5', 'B6', 'B7'],
    'C': ['C4', 'C5', 'C6', 'C7'],
    'D': ['D4', 'D5', 'D6', 'D7']
}, index=[4, 5, 6, 7])

# 使用 concat 进行行合并
result = pd.concat([df1, df2])
print(result)

Output:

Pandas concat reset index

示例代码 2：带有多层索引的行合并

import pandas as pd

# 创建两个 DataFrame
df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
}, index=[0, 1, 2, 3])

df2 = pd.DataFrame({
    'A': ['A4', 'A5', 'A6', 'A7'],
    'B': ['B4', 'B5', 'B6', 'B7'],
    'C': ['C4', 'C5', 'C6', 'C7'],
    'D': ['D4', 'D5', 'D6', 'D7']
}, index=[4, 5, 6, 7])

# 使用 concat 进行行合并，并添加多层索引
result = pd.concat([df1, df2], keys=['df1', 'df2'])
print(result)

Output:

Pandas concat reset index

示例代码 3：列合并

import pandas as pd

# 创建两个 DataFrame
df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
}, index=[0, 1, 2, 3])

df2 = pd.DataFrame({
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
}, index=[0, 1, 2, 3])

# 使用 concat 进行列合并
result = pd.concat([df1, df2], axis=1)
print(result)

Output:

Pandas concat reset index

2. reset_index 的基本使用

在数据合并后，经常需要重新设置索引，以保证索引的唯一性和有序性。reset_index 方法可以重置 DataFrame 的索引，并使用默认的整数索引替换原来的索引。

示例代码 4：重置索引

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
}, index=[0, 1, 2, 3])

# 重置索引
result = df.reset_index()
print(result)

Output:

Pandas concat reset index

示例代码 5：重置索引并删除旧索引

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
}, index=[0, 1, 2, 3])

# 重置索引并删除旧索引
result = df.reset_index(drop=True)
print(result)

Output:

Pandas concat reset index

示例代码 6：重置索引并将旧索引作为列添加

import pandas as pd

# 创建一个 DataFrame
df = pd.DataFrame({
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
}, index=[0, 1, 2, 3])

# 重置索引并将旧索引作为列添加
result = df.reset_index().rename(columns={'index': 'old_index'})
print(result)

Output:

Pandas concat reset index

3. 结合使用 concat 和 reset_index

在实际的数据处理过程中，concat 和 reset_index 经常需要结合使用。通过 concat 合并数据后，使用 reset_index 重新设置索引，可以使得合并后的数据集具有统一的、有序的索引。

示例代码 7：合并数据后重置索引

import pandas as pd

# 创建两个 DataFrame
df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
}, index=[0, 1, 2, 3])

df2 = pd.DataFrame({
    'A': ['A4', 'A5', 'A6', 'A7'],
    'B': ['B4', 'B5', 'B6', 'B7']
}, index=[4, 5, 6, 7])

# 使用 concat 进行行合并
result = pd.concat([df1, df2])

# 重置索引
result_reset = result.reset_index(drop=True)
print(result_reset)

Output:

Pandas concat reset index

示例代码 8：合并数据并保留多层索引

import pandas as pd

# 创建两个 DataFrame
df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
}, index=[0, 1, 2, 3])

df2 = pd.DataFrame({
    'A': ['A4', 'A5', 'A6', 'A7'],
    'B': ['B4', 'B5', 'B6', 'B7']
}, index=[4, 5, 6, 7])

# 使用 concat 进行行合并，并保留多层索引
result = pd.concat([df1, df2], keys=['Group1', 'Group2'])

# 重置索引，并保留原来的索引作为新的列
result_reset = result.reset_index().rename(columns={'level_0': 'Group', 'level_1': 'Original_Index'})
print(result_reset)

Output:

Pandas concat reset index

示例代码 9：列合并后重置索引

import pandas as pd

# 创建两个 DataFrame
df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
}, index=[0, 1, 2, 3])

df2 = pd.DataFrame({
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
}, index=[0, 1, 2, 3])

# 使用 concat 进行列合并
result = pd.concat([df1, df2], axis=1)

# 重置索引
result_reset = result.reset_index(drop=True)
print(result_reset)

Output:

Pandas concat reset index

示例代码 10：合并多个 DataFrame 并重置索引

import pandas as pd

# 创建三个 DataFrame
df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
}, index=[0, 1, 2, 3])

df2 = pd.DataFrame({
    'A': ['A4', 'A5', 'A6', 'A7'],
    'B': ['B4', 'B5', 'B6', 'B7']
}, index=[4, 5, 6, 7])

df3 = pd.DataFrame({
    'A': ['A8', 'A9', 'A10', 'A11'],
    'B': ['B8', 'B9', 'B10', 'B11']
}, index=[8, 9, 10, 11])

# 使用 concat 进行行合并
result = pd.concat([df1, df2, df3])

# 重置索引
result_reset = result.reset_index(drop=True)
print(result_reset)

Output:

Pandas concat reset index

4. 高级应用：使用 concat 和 reset_index 处理复杂数据

在处理更复杂的数据结构时，concat 和 reset_index 的灵活使用可以帮助我们解决多种数据整合的问题。例如，我们可能需要合并来自不同数据源的数据，这些数据源的索引可能完全不同，或者我们需要在合并后的数据集中保留关于数据来源的信息。

示例代码 11：合并具有不同列的 DataFrame

import pandas as pd

# 创建两个 DataFrame，列不完全相同
df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3'],
    'E': ['E0', 'E1', 'E2', 'E3']
}, index=[0, 1, 2, 3])

df2 = pd.DataFrame({
    'A': ['A4', 'A5', 'A6', 'A7'],
    'B': ['B4', 'B5', 'B6', 'B7'],
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3']
}, index=[4, 5, 6, 7])

# 使用 concat 进行行合并，处理不同的列
result = pd.concat([df1, df2], sort=False)

# 重置索引
result_reset = result.reset_index(drop=True)
print(result_reset)

Output:

Pandas concat reset index

示例代码 12：合并数据并使用多层索引标记数据来源

import pandas as pd

# 创建两个 DataFrame
df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3']
}, index=[0, 1, 2, 3])

df2 = pd.DataFrame({
    'A': ['A4', 'A5', 'A6', 'A7'],
    'B': ['B4', 'B5', 'B6', 'B7']
}, index=[4, 5, 6, 7])

# 使用 concat 进行行合并，并标记数据来源
result = pd.concat([df1, df2], keys=['Source1', 'Source2'])

# 重置索引，并保留原来的多层索引信息
result_reset = result.reset_index().rename(columns={'level_0': 'Source', 'level_1': 'Original_Index'})
print(result_reset)

Output:

Pandas concat reset index