pandas dataframe增加一列|极客教程

pandas dataframe增加一列

在数据处理和分析中，Pandas 是一个非常常用的 Python 库。Pandas 提供了丰富的数据结构和数据操作方法，其中最常用的数据结构就是 DataFrame。DataFrame 可以类比为一个二维表格，每一列可以是不同的数据类型。

在实际的数据处理过程中，经常会遇到需要给 DataFrame 添加新列的情况。这篇文章将详细介绍如何使用 Pandas 给 DataFrame 增加一列，包括直接赋值、使用函数、条件判断等不同的方法。

直接赋值

最简单的给 DataFrame 添加新列的方法就是直接赋值。我们可以通过列名的方式给 DataFrame 新增一列数据。

import pandas as pd

# 创建一个示例 DataFrame
data = {'A': [1, 2, 3, 4, 5],
        'B': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data)

# 直接赋值给新列
df['C'] = [10, 20, 30, 40, 50]

print(df)

运行上面的代码，输出的结果如下：

   A  B   C
0  1  a  10
1  2  b  20
2  3  c  30
3  4  d  40
4  5  e  50

我们可以看到，通过直接赋值给新列名的方式，成功给 DataFrame 添加了一列数据。

使用函数

除了直接赋值外，我们还可以通过函数的方式给 DataFrame 添加新列。这种方式适用于需要对现有数据进行处理后再添加到新列中的情况。

import pandas as pd

# 创建一个示例 DataFrame
data = {'A': [1, 2, 3, 4, 5],
        'B': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data)

# 定义一个函数
def multiply_by_10(x):
    return x * 10

# 使用函数给新列赋值
df['C'] = df['A'].apply(multiply_by_10)

print(df)

运行上面的代码，输出的结果如下：

   A  B   C
0  1  a  10
1  2  b  20
2  3  c  30
3  4  d  40
4  5  e  50

在这个示例中，我们定义了一个函数 multiply_by_10，然后使用 apply 方法将函数作用在列 A 上，得到的结果赋值给新的列 C。

条件判断

有时候需要根据某些条件给 DataFrame 添加新列，比如根据某一列的数值大小来判断是否满足条件。这种情况下，我们可以使用 np.where 函数来进行条件判断。

import pandas as pd
import numpy as np

# 创建一个示例 DataFrame
data = {'A': [1, 2, 3, 4, 5],
        'B': ['a', 'b', 'c', 'd', 'e']}
df = pd.DataFrame(data)

# 使用条件判断给新列赋值
df['C'] = np.where(df['A'] > 3, 'high', 'low')

print(df)

运行上面的代码，输出的结果如下：

   A  B     C
0  1  a   low
1  2  b   low
2  3  c   low
3  4  d  high
4  5  e  high

在这个示例中，我们使用 np.where 函数对列 A 进行条件判断，如果大于 3 则给新列 C 赋值为 'high'，否则赋值为 'low'。

结论

本文介绍了几种常用的方法来给 Pandas DataFrame 添加新列，包括直接赋值、使用函数和条件判断。这些方法可以满足不同的需求，帮助我们更方便地对数据进行处理和分析。

pandas dataframe增加一列