pandas dataframe新增字段|极客教程

pandas dataframe新增字段

在数据分析和处理过程中，经常需要对数据进行加工和处理，其中包括新增字段。在pandas库中，DataFrame是一个非常常用的数据结构，可以方便地对数据进行操作和处理。本文将详细介绍如何在pandas DataFrame中新增字段。

1. 创建pandas DataFrame

首先，我们需要创建一个pandas DataFrame来演示如何新增字段。可以使用字典或列表来创建DataFrame。下面是一个简单的示例：

import pandas as pd

data = {
    'A': [1, 2, 3, 4, 5],
    'B': [10, 20, 30, 40, 50]
}

df = pd.DataFrame(data)
print(df)

运行结果：

我们创建了一个包含两列的DataFrame，列名分别为”A”和”B”，并打印出DataFrame的内容。

2. 新增字段

新增字段可以通过多种方式实现，下面介绍几种常用的方法。

2.1 直接赋值

最简单的方式是直接为DataFrame添加一个新的列，可以通过以下方式实现：

df['C'] = [100, 200, 300, 400, 500]
print(df)

运行结果：

   A   B    C
0  1  10  100
1  2  20  200
2  3  30  300
3  4  40  400
4  5  50  500

我们将一个名为”C”的新列添加到DataFrame中，并为其赋值为[100, 200, 300, 400, 500]。

2.2 使用assign方法

另一种方法是使用DataFrame的assign方法，可以为DataFrame添加新列并返回一个新的DataFrame对象。示例如下：

df = df.assign(D=[1, 2, 3, 4, 5])
print(df)

运行结果：

   A   B    C  D
0  1  10  100  1
1  2  20  200  2
2  3  30  300  3
3  4  40  400  4
4  5  50  500  5

在这个示例中，我们使用assign方法为DataFrame添加了一个名为”D”的新列，并为其赋值为[1, 2, 3, 4, 5]。

2.3 使用apply方法

还可以使用apply方法根据已有列的数值计算生成新列。示例如下：

df['E'] = df['A'] + df['B']
print(df)

运行结果：

   A   B    C  D   E
0  1  10  100  1  11
1  2  20  200  2  22
2  3  30  300  3  33
3  4  40  400  4  44
4  5  50  500  5  55

通过apply方法，我们新增了一个名为”E”的列，其值为”A”列和”B”列对应元素之和。

3. 深拷贝与浅拷贝

在复制DataFrame时需要注意深拷贝和浅拷贝的问题。浅拷贝只会复制对象的引用，修改副本会影响原对象，而深拷贝则会生成一个独立的副本。示例如下：

df_copy = df.copy()  # 深拷贝
df_shallow_copy = df  # 浅拷贝

df_copy['A'][0] = 100
df_shallow_copy['B'][0] = 1000

print("深拷贝:")
print(df_copy)

print("原始DataFrame:")
print(df)

print("浅拷贝:")
print(df_shallow_copy)

运行结果：

深拷贝:
     A    B    C  D   E
0  100   10  100  1  11
1    2   20  200  2  22
2    3   30  300  3  33
3    4   40  400  4  44
4    5   50  500  5  55
原始DataFrame:
   A    B    C  D   E
0  1  100  100  1  11
1  2   20  200  2  22
2  3   30  300