PySpark 累加之前行的数组（PySpark dataframe）

在本文中，我们将介绍如何使用PySpark的DataFrame累加之前行的数组。累加是指将数组中的元素逐个相加，然后将结果存储到新的列中。

创建示例数据

首先，让我们创建一个包含数组的示例数据。使用以下代码创建一个PySpark DataFrame，并包含一个名为“array”的列，其中包含数组数据：

from pyspark.sql import SparkSession
from pyspark.sql.functions import expr

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建示例数据
data = [(1, [1, 2, 3]),
        (2, [4, 5, 6]),
        (3, [7, 8, 9])]

df = spark.createDataFrame(data, ["id", "array"])
df.show()

执行以上代码，将输出如下示例数据的DataFrame：

+---+---------+
| id|array    |
+---+---------+
|  1|[1, 2, 3]|
|  2|[4, 5, 6]|
|  3|[7, 8, 9]|
+---+---------+

使用窗口函数累加数组

使用PySpark的窗口函数可以轻松地实现累加数组的操作。我们可以使用lag函数和sum函数来计算之前行的数组，并将结果存储到新列中。

以下代码演示了如何创建一个窗口，并使用lag函数和sum函数来累加之前行的数组：

from pyspark.sql.window import Window

# 创建窗口
window = Window.orderBy("id")

# 使用窗口函数累加数组
df = df.withColumn("cumulative_array", expr("sum(array) over (partition by null order by id)"))
df.show()

执行以上代码，将输出如下结果：

+---+---------+----------------+
| id|array    |cumulative_array|
+---+---------+----------------+
|  1|[1, 2, 3]|[1, 2, 3]       |
|  2|[4, 5, 6]|[5, 7, 9]       |
|  3|[7, 8, 9]|[12, 15, 18]    |
+---+---------+----------------+

可以看到，新的列“cumulative_array”包含了累加的结果，每一行的值都是之前行数组的累加值。

累加多个列的数组

如果需要累加多个列的数组，可以使用arrays_zip函数将多个列的数组合并为一个列，然后再进行累加操作。

以下代码演示了如何累加多个列的数组：

from pyspark.sql.functions import arrays_zip

# 创建示例数据
data = [(1, [1, 2, 3], [10, 20, 30]),
        (2, [4, 5, 6], [40, 50, 60]),
        (3, [7, 8, 9], [70, 80, 90])]

df = spark.createDataFrame(data, ["id", "array1", "array2"])

# 创建窗口
window = Window.orderBy("id")

# 使用窗口函数累加多个列的数组
df = df.withColumn("cumulative_array", 
                   expr("sum(arrays_zip(array1, array2)) over (partition by null order by id)"))
df.show()

执行以上代码，将输出如下结果：

+---+---------+---------+------------------------+
| id|array1   |array2   |cumulative_array        |
+---+---------+---------+------------------------+
|  1|[1, 2, 3]|[10, 20, 30]|[[1,10], [2,20], [3,30]]|
|  2|[4, 5, 6]|[40, 50, 60]|[[5,40], [7,70], [9,90]]|
|  3|[7, 8, 9]|[70, 80, 90]|[[12,70], [15,150], [18,240]]|
+---+---------+---------+------------------------+

可以看到，“cumulative_array”列包含了累加的结果，每一行中的数组由之前行对应数组元素逐个相加得到。