Pandas 对一组数据进行位移操作

在本文中，我们将介绍 Pandas 中如何对一组数据进行位移操作。

pandas.shift() 的基本用法

Pandas 中的 shift() 函数可以将一组数据向前或向后位移。它有两个主要参数：

periods：需要位移的步数，正数表示向前位移，负数表示向后位移；
axis：默认值为 0，表示对行进行位移，如果要对列进行位移，可以将 axis 设置为 1。

示例代码如下：

import pandas as pd

df = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50]})

df_shifted = df.shift(periods=2)

以上代码中，我们创建了一个 DataFrame，其中包含两列数据 A 和 B。然后，我们对这个 DataFrame 进行了向前位移 2 步的操作，并将结果保存在了 df_shifted 变量中。位移后的结果如下所示：

A	B
nan	nan
nan	nan
1	10
2	20
3	30

可以看到，位移后的结果前两行由于没有数据填充而变成了 NaN。

在 Pandas 中对分组数据进行位移操作

如果我们需要对一组数据进行分组，并对每个分组中的数据进行位移操作，可以使用 Pandas 中的 groupby() 函数，并结合 apply() 函数来实现。

假设我们有如下的数据集：

import pandas as pd

df = pd.DataFrame({
    'group': ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
    'value': [1, 2, 3, 4, 5, 6, 7, 8, 9]
})

	group	value
0	A	1
1	A	2
2	A	3
3	B	4
4	B	5
5	B	6
6	C	7
7	C	8
8	C	9

我们要对该数据集按照 group 字段进行分组，并对 value 列进行向前位移 1 步，那么可以这样做：

import pandas as pd

df = pd.DataFrame({
    'group': ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
    'value': [1, 2, 3, 4, 5, 6, 7, 8, 9]
})

def shift_value(df):
    df['shifted'] = df['value'].shift(periods=1)
    return df

df_shifted = df.groupby('group').apply(shift_value)

以上代码中，我们首先定义了一个名为 shift_value() 的函数，在该函数中对传入的 DataFrame 进行了向前位移操作，并将结果存放在了名为 shifted 的新列中。然后，我们使用 groupby() 函数对原始数据集进行了分组，并使用 apply() 函数将定义好的函数应用到每个分组中。最终得到的带有 shifted 列的新数据集如下所示：

	group	value	shifted
0	A	1	nan
1	A	2	1.0
2	A		\| group \| value \| shifted
–	—–	—–	——-
0	A	1	nan
1	A	2	1.0
2	A	3	2.0
3	B	4	nan
4	B	5	4.0
5	B	6	5.0
6	C	7	nan
7	C	8	7.0
8	C	9	8.0

可以看到，所有针对 value 列进行位移操作的分组都被移动了一位，并将位移后的结果存放在了新的 shifted 列中。

多列数据的位移操作

除了可以对单列数据进行位移操作外，我们也可以同时对多列数据进行位移。假设我们的数据集包含了三个不同的列 A、B 和 C：

import pandas as pd

df = pd.DataFrame({
    'group': ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
    'A': [1, 2, 3, 4, 5, 6, 7, 8, 9],
    'B': [10, 20, 30, 40, 50, 60, 70, 80, 90],
    'C': [100, 200, 300, 400, 500, 600, 700, 800, 900]
})

	group	A	B	C
0	A	1	10	100
1	A	2	20	200
2	A	3	30	300
3	B	4	40	400
4	B	5	50	500
5	B	6	60	600
6	C	7	70	700
7	C	8	80	800
8	C	9	90	900

现在，我们想要针对 group 字段进行分组，并将 A、B 和 C 三列数据都向前位移一位。代码如下：

import pandas as pd

df = pd.DataFrame({
    'group': ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
    'A': [1, 2, 3, 4, 5, 6, 7, 8, 9],
    'B': [10, 20, 30, 40, 50, 60, 70, 80, 90],
    'C': [100, 200, 300, 400, 500, 600, 700, 800, 900]
})

def shift_columns(df):
    df[['A', 'B', 'C']] = df[['A', 'B', 'C']].shift(periods=1)
    return df

df_shifted = df.groupby('group').apply(shift_columns)

以上代码中，我们定义了一个名为 shift_columns() 的函数，使用 shift() 函数对 A、B 和 C 三列数据进行了位移操作。然后，使用 groupby() 函数对数据集进行了分组，并使用 apply() 函数将定义好的函数应用到每个分组中。最终得到的带有位移后结果的新数据集如下所示：