Pandas中如何计算前N行的累积总和

在本文中，我们将介绍如何使用Pandas计算一个列的前N行的累积总和。假设我们有一个数据片段，每一行都包含一个价值（value）和一个时间戳（timestamp）。我们想要计算每一行前N行的价值累积和。下面是一些示例代码和解释：

import pandas as pd

# 创建一个DataFrame
d = {'timestamp': pd.date_range('2021-01-01', '2021-01-10'), 'value': range(1, 11)}
df = pd.DataFrame(data=d)

# 计算前3行的累计和
df['cumulative_sum'] = df['value'].rolling(3).sum()

# 打印输出结果
print(df)

上述代码将创建一个从2021年1月1日到2021年1月10日的时间序列，并用整数填充每一行的value列。我们使用Pandas的rolling方法计算前3行的累计和，并将其存储在新列cumulative_sum中。接下来，我们打印输出这个DataFrame，看看它是如何运作的：

   timestamp  value  cumulative_sum
0 2021-01-01      1             NaN
1 2021-01-02      2             NaN
2 2021-01-03      3             6.0
3 2021-01-04      4             9.0
4 2021-01-05      5            12.0
5 2021-01-06      6            15.0
6 2021-01-07      7            18.0
7 2021-01-08      8            21.0
8 2021-01-09      9            24.0
9 2021-01-10     10            27.0

可以看到，前两行的累计总和是NaN，因为没有前面的数据。第三行的累计和（1+2+3=6）就是3行中的前两个元素加上第三个元素。接着，第四行的累计和（2+3+4=9）是前三个元素的累计和。如此类推，直到第十行。

如果我们希望计算更多行的累积和，只需要在rolling函数中输入更大的数字：

# 计算前5行的累计和
df['cumulative_sum_5'] = df['value'].rolling(5).sum()

# 打印输出结果
print(df)

这段代码将计算前5个值的累计和，并将结果存储在新的列cumulative_sum_5中：

   timestamp  value  cumulative_sum  cumulative_sum_5
0 2021-01-01      1             NaN               NaN
1 2021-01-02      2             NaN               NaN
2 2021-01-03      3             6.0               NaN
3 2021-01-04      4             9.0               NaN
4 2021-01-05      5            12.0              15.0
5 2021-01-06      6            15.0              20.0
6 2021-01-07      7            18.0              25.0
7 2021-01-08      8            21.0              30.0
8 2021-01-09      9            24.0              35.0
9 2021-01-10     10            27.0              40.0