pandas怎么将多列合成一列|极客教程

pandas怎么将多列合成一列

在数据处理和分析中，常常会遇到需要将多列数据合并为一列的情况。pandas是Python中广泛使用的数据处理库，提供了丰富的方法来处理DataFrame数据。本文将详细介绍pandas中如何将多列合并为一列的常用方法。

1. 使用concat方法合并列

pandas的concat方法可以将多个Series或DataFrame对象沿着指定的轴方向进行合并。对于将多列合并为一列的需求，我们可以先选取要合并的多列，然后使用concat方法将它们沿着列轴方向进行合并。

下面是一个示例代码：

import pandas as pd

# 创建一个DataFrame
data = {'col1': [1, 2, 3],
        'col2': [4, 5, 6],
        'col3': [7, 8, 9]}
df = pd.DataFrame(data)

# 选取要合并的多列
cols_to_merge = ['col1', 'col2', 'col3']

# 使用concat方法合并多列为一列
merged_col = pd.concat([df[col] for col in cols_to_merge])

上述代码首先创建一个包含三列数据的DataFrame对象。然后，我们选取了要合并的三列（’col1’、’col2’和’col3’），使用列表推导式的方式构建了一个包含这三列数据的列表，并将其传给了concat方法。通过运行上述代码，我们得到了一个包含三列数据的Series对象merged_col，即将多列合并为一列。

2. 使用melt方法合并列

pandas的melt方法可以将DataFrame对象从宽格式转换为长格式。对于需要将多列合并为一列的情况，我们可以使用melt方法将这些列转换为一个列，并在转换过程中保留其他列的值。

下面是一个示例代码：

import pandas as pd

# 创建一个DataFrame
data = {'id': [1, 2, 3],
        'col1': [4, 5, 6],
        'col2': [7, 8, 9],
        'col3': [10, 11, 12]}
df = pd.DataFrame(data)

# 使用melt方法将多列合并为一列
merged_col = pd.melt(df, id_vars=['id'], value_vars=['col1', 'col2', 'col3'], var_name='columns', value_name='merged')

上述代码首先创建一个包含多列数据的DataFrame对象。然后，我们使用melt方法将’col1’、’col2’和’col3’这三列转换为一列，并将其保存在一个新列’merged’中。在转换过程中，我们还保留了原始数据中的’id’列，并将它保存在了一个新列’id’中。通过运行上述代码，我们得到了一个包含’merged’和’id’两列的DataFrame对象merged_col，即将多列合并为一列。

3. 使用stack方法合并列

pandas的stack方法可以将DataFrame对象的列“堆叠”起来，将多列合并为一列，并将结果保存在一个新的Series对象中。

下面是一个示例代码：

import pandas as pd

# 创建一个DataFrame
data = {'id': [1, 2, 3],
        'col1': [4, 5, 6],
        'col2': [7, 8, 9],
        'col3': [10, 11, 12]}
df = pd.DataFrame(data)

# 使用stack方法将多列合并为一列
merged_col = df.set_index('id').stack().reset_index(level=1, name='merged').rename(columns={'level_1': 'columns'})

上述代码首先创建一个包含多列数据的DataFrame对象。然后，我们使用set_index方法将’id’列设置为索引列，使DataFrame变为带有层次化索引的格式。接下来，我们使用stack方法将DataFrame的列堆叠起来，并将结果保存在一个Series对象中。使用reset_index方法将Series对象转换回DataFrame对象，并重命名新列为’merged’和’columns’。通过运行上述代码，我们得到了一个包含’merged’和’columns’两列的DataFrame对象merged_col，即将多列合并为一列。

4. 使用apply方法合并列

pandas的apply方法可以对DataFrame对象的每个元素应用指定的函数，从而实现对元素的自定义操作。对于将多列合并为一列的需求，我们可以使用apply方法结合lambda函数对每个元素进行合并。

下面是一个示例代码：

import pandas as pd

# 创建一个DataFrame
data = {'col1': [1, 2, 3],
        'col2': [4, 5, 6],
        'col3': [7, 8, 9]}
df = pd.DataFrame(data)

# 使用apply方法将多列合并为一列
merged_col = df.apply(lambda row: '|'.join(map(str, row)), axis=1, result_type='expand').rename(columns={0: 'merged'})

上述代码首先创建一个包含三列数据的DataFrame对象。然后，我们使用apply方法结合lambda函数对DataFrame的每一行进行操作。lambda函数将每个元素转为字符串，并使用’|’符号进行合并。通过设置axis参数为1，我们指定对每一行进行操作。result_type参数被设置为’expand’，以返回每个元素合并后的结果。通过rename方法，我们将新列命名为’merged’。通过运行上述代码，我们得到了一个包含’merged’一列的DataFrame对象merged_col，即将多列合并为一列。

综上所述，本文介绍了pandas中将多列合并为一列的几种常用方法，包括使用concat方法、melt方法、stack方法和apply方法。在实际应用中，可以根据具体需求选择适合的方法来合并列。