pandas concat 详解|极客教程

pandas concat 详解

Pandas 是一个强大的 Python 数据处理库，广泛用于数据分析和数据科学领域。在处理数据时，经常需要将多个数据集合并为一个，这时 concat 函数就显得尤为重要。本文将详细介绍 pandas.concat 函数的用法，并通过多个示例展示如何在实际中应用它。

1. pandas.concat 基础

pandas.concat 是 pandas 中用于合并数据的一个非常重要的函数。它可以沿着一条轴将多个对象堆叠到一起。例如，可以是沿着行（垂直）合并或沿着列（水平）合并。

示例代码 1：基础的垂直合并

import pandas as pd

# 创建两个DataFrame
df1 = pd.DataFrame({
    '网址': ['pandasdataframe.com', 'example.com'],
    '数据': [1, 2]
})
df2 = pd.DataFrame({
    '网址': ['pandasdataframe.com', 'test.com'],
    '数据': [3, 4]
})

# 使用concat进行垂直合并
result = pd.concat([df1, df2])
print(result)

Output:

pandas concat 详解

示例代码 2：基础的水平合并

import pandas as pd

# 创建两个DataFrame
df1 = pd.DataFrame({
    '网址': ['pandasdataframe.com', 'example.com']
})
df2 = pd.DataFrame({
    '数据': [1, 2]
})

# 使用concat进行水平合并
result = pd.concat([df1, df2], axis=1)
print(result)

Output:

pandas concat 详解

2. 索引处理

在使用 concat 合并数据时，处理索引是一个重要的方面。Pandas 提供了多种方式来处理合并时的索引问题。

示例代码 3：忽略原有索引

import pandas as pd

# 创建两个DataFrame
df1 = pd.DataFrame({
    '网址': ['pandasdataframe.com', 'example.com'],
    '数据': [1, 2]
})
df2 = pd.DataFrame({
    '网址': ['pandasdataframe.com', 'test.com'],
    '数据': [3, 4]
})

# 使用concat进行合并，忽略原有索引
result = pd.concat([df1, df2], ignore_index=True)
print(result)

Output:

pandas concat 详解

示例代码 4：添加多级索引

import pandas as pd

# 创建两个DataFrame
df1 = pd.DataFrame({
    '网址': ['pandasdataframe.com', 'example.com'],
    '数据': [1, 2]
})
df2 = pd.DataFrame({
    '网址': ['pandasdataframe.com', 'test.com'],
    '数据': [3, 4]
})

# 使用concat进行合并，添加多级索引
result = pd.concat([df1, df2], keys=['第一组', '第二组'])
print(result)

Output:

pandas concat 详解

3. 列对齐

当合并的 DataFrame 列不一致时，concat 如何处理也是一个需要考虑的问题。

示例代码 5：合并时列不对齐

import pandas as pd

# 创建两个DataFrame，列不完全相同
df1 = pd.DataFrame({
    '网址': ['pandasdataframe.com', 'example.com'],
    '数据': [1, 2]
})
df2 = pd.DataFrame({
    '网址': ['pandasdataframe.com', 'test.com'],
    '额外数据': [5, 6]
})

# 使用concat进行合并，列不对齐
result = pd.concat([df1, df2])
print(result)

Output:

pandas concat 详解

4. 合并策略

concat 提供了多种参数来控制合并的具体行为，如 join 参数可以控制是取并集还是交集。

示例代码 6：使用内连接

import pandas as pd

# 创建两个DataFrame，列部分相同
df1 = pd.DataFrame({
    '网址': ['pandasdataframe.com', 'example.com'],
    '数据': [1, 2]
})
df2 = pd.DataFrame({
    '网址': ['pandasdataframe.com', 'test.com'],
    '数据': [3, 4],
    '额外数据': [5, 6]
})

# 使用concat进行合并，内连接
result = pd.concat([df1, df2], join='inner')
print(result)

Output:

pandas concat 详解

示例代码 7：使用外连接

import pandas as pd

# 创建两个DataFrame，列部分相同
df1 = pd.DataFrame({
    '网址': ['pandasdataframe.com', 'example.com'],
    '数据': [1, 2]
})
df2 = pd.DataFrame({
    '网址': ['pandasdataframe.com', 'test.com'],
    '数据': [3, 4],
    '额外数据': [5, 6]
})

# 使用concat进行合并，外连接
result = pd.concat([df1, df2], join='outer')
print(result)

Output:

pandas concat 详解

5. 性能考虑

在处理大规模数据时，合并操作的性能变得尤为重要。以下是一些优化合并操作的技巧。

示例代码 8：预先指定数据类型

import pandas as pd

# 创建两个大型DataFrame
df1 = pd.DataFrame({
    '网址': ['pandasdataframe.com' for _ in range(100000)],
    '数据': range(100000)
})
df2 = pd.DataFrame({
    '网址': ['pandasdataframe.com' for _ in range(100000)],
    '数据': range(100000, 200000)
})

# 使用concat进行合并，预先指定数据类型可以提高性能
result = pd.concat([df1, df2]).astype({'数据': 'int32'})
print(result)