pandas两列值合并成一列|极客教程

pandas两列值合并成一列

在数据处理和分析中，经常会遇到需要将两个或多个列的值合并成一列的情况。在Python中，使用pandas库可以非常方便地实现这个操作。本文将详细介绍如何使用pandas将两列值合并成一列。

1. 数据准备

首先，我们需要准备一些数据来演示合并两列值的操作。假设我们有一个包含学生姓名和年龄的数据表，如下所示：

姓名	年龄
小明	18
小红	21
小亮	20

2. 使用pandas合并两列值

接下来，我们将通过pandas库来合并这两列值。首先，我们需要导入pandas库：

import pandas as pd

然后，我们可以使用pandas的concat函数来合并两列值。concat函数可以将两个数据列按照指定的轴（axis）进行合并。在我们的示例中，我们想要将学生姓名和年龄合并成一列，所以轴的值应该设置为1（表示列）。

下面是合并两列值的代码示例：

# 创建DataFrame
data = {'姓名': ['小明', '小红', '小亮'],
        '年龄': [18, 21, 20]}
df = pd.DataFrame(data)

# 合并两列
df['姓名年龄'] = df['姓名'] + ' - ' + df['年龄'].astype(str)

在上面的代码中，我们首先创建了一个DataFrame对象，并将数据存储在其中。然后，我们使用+操作符将两列值合并，并将结果存储在新的一列姓名年龄中。

接下来，我们来查看合并结果：

print(df)

运行以上代码，输出如下：

   姓名  年龄  姓名年龄
0  小明  18   小明 - 18
1  小红  21   小红 - 21
2  小亮  20   小亮 - 20

可以看到，成功地将两列值合并成了一列，并按照指定的格式进行了拼接。

3. 合并时处理缺失值

在实际的数据处理过程中，可能会遇到缺失值的情况。pandas提供了一些方法来处理这种情况。下面是一些常用的方式：

3.1. 忽略缺失值

如果合并的两列中存在缺失值，我们可以使用pandas的fillna方法将其忽略。fillna方法可以替换掉缺失值并返回一个新的Series对象。

下面是一个示例代码：

import numpy as np

# 创建DataFrame
data = {'姓名': ['小明', '小红', np.nan],
        '年龄': [18, 21, 20]}
df = pd.DataFrame(data)

# 合并两列
df['姓名年龄'] = df['姓名'].fillna('') + ' - ' + df['年龄'].astype(str)

在上面的代码中，我们使用fillna方法将缺失值替换为一个空字符串''。这样，在后续的合并操作中，缺失的值会被忽略掉。

3.2. 用默认值填充缺失值

另一种处理缺失值的方式是使用pandas的fillna方法将缺失值替换为一个默认值。下面是一个示例代码：

import numpy as np

# 创建DataFrame
data = {'姓名': ['小明', '小红', np.nan],
        '年龄': [18, 21, 20]}
df = pd.DataFrame(data)

# 合并两列，并用默认值填充缺失值
df['姓名年龄'] = df['姓名'].fillna('未知') + ' - ' + df['年龄'].astype(str)

在上面的代码中，我们使用fillna方法将缺失值替换为一个默认值'未知'。这样，在后续的合并操作中，缺失的值会被替换为默认值。