PySpark：when函数的多输出

在本文中，我们将介绍如何在PySpark中使用when函数来进行条件判断，并实现多输出的功能。

什么是PySpark？

PySpark是一种Python编程接口，用于与Apache Spark分布式计算框架进行交互。Spark是一个快速、通用的分布式计算系统，可用于大规模数据处理和分析。PySpark提供了一个易用的接口，使得使用Python编程语言能够更方便地与Spark进行交互。

when函数概述

Spark提供了when函数作为一种条件语句，类似于SQL语句中的CASE WHEN语句。when函数可以根据指定的条件来进行判断，并返回相应的结果。

当需要根据不同的条件分别对一列数据进行处理时，使用when函数可以起到非常便利和高效的作用。在Spark SQL中，when函数通常与select和withColumn函数一起使用。

使用when函数进行条件判断

为了更好地理解when函数的使用方法，让我们考虑一个实际的例子。假设我们有一张销售订单表，包含订单的金额和订单类型。我们希望根据订单的金额来判断订单的分类，并将分类结果添加为新的一列。

首先，让我们创建一个示例数据集：

from pyspark.sql import SparkSession

spark = SparkSession.builder.getOrCreate()

# 创建示例数据集
data = [(1, 100, "A"),
        (2, 200, "B"),
        (3, 300, "C"),
        (4, 400, "A"),
        (5, 500, "B")]

df = spark.createDataFrame(data, ["order_id", "amount", "type"])
df.show()

上述代码创建了一个包含订单号、金额和类型的数据集df，并打印数据集的内容：

+--------+------+----+
|order_id|amount|type|
+--------+------+----+
|       1|   100|   A|
|       2|   200|   B|
|       3|   300|   C|
|       4|   400|   A|
|       5|   500|   B|
+--------+------+----+

接下来，我们使用when函数和withColumn函数来实现条件判断，并将结果添加为新的一列。假设我们将订单金额小于200的订单分类为”Low”，金额在200和400之间的订单分类为”Medium”，金额大于400的订单分类为”High”。

from pyspark.sql.functions import when

# 使用when函数进行条件判断和分类
df = df.withColumn("category", when(df.amount < 200, "Low")
                          .when(df.amount.between(200, 400), "Medium")
                          .otherwise("High"))

df.show()

上述代码创建了一个名为”category”的新列，并根据不同的条件将订单进行分类。执行结果如下所示：

+--------+------+----+--------+
|order_id|amount|type|category|
+--------+------+----+--------+
|       1|   100|   A|     Low|
|       2|   200|   B|  Medium|
|       3|   300|   C|  Medium|
|       4|   400|   A|  Medium|
|       5|   500|   B|    High|
+--------+------+----+--------+

通过使用when函数，我们成功地根据订单的金额进行了分类，并将分类结果添加为新的一列。

多输出示例

当使用when函数时，我们可以根据需要实现多个条件判断和多个输出结果。例如，假设我们希望对订单金额除以100的结果进行判断，并根据结果的不同添加不同的列。

# 使用when函数进行多输出
df = df.withColumn("division", df.amount / 100)
        .withColumn("output1", when(df.division < 2, "Low")
                              .when(df.division.between(2, 4), "Medium")
                              .otherwise("High"))
        .withColumn("output2", when(df.division < 2, df.division * 10)
                              .when(df.division.between(2, 4), df.division * 20)
                              .otherwise(df.division * 30))

df.show()

上述代码根据订单金额除以100的结果对数据进行了多次判断，并添加了两列输出结果。执行结果如下所示：

+--------+------+----+--------+--------+--------+
|order_id|amount|type|category|division|output1 |output2 |
+--------+------+----+--------+--------+--------+
|       1|   100|   A|     Low|     1.0|Low     |10.0    |
|       2|   200|   B|  Medium|     2.0|Medium  |40.0    |
|       3|   300|   C|  Medium|     3.0|Medium  |60.0    |
|       4|   400|   A|  Medium|     4.0|Medium  |80.0    |
|       5|   500|   B|    High|     5.0|High    |150.0   |
+--------+------+----+--------+--------+--------+

通过使用多次when函数，我们根据不同的条件以及对应的输出结果，成功地将订单金额除以100的结果进行了判断，并添加了两列输出结果。

总结

本文介绍了在PySpark中使用when函数进行条件判断的方法，并通过示例展示了如何实现多输出的功能。通过灵活运用when函数，我们可以便捷地根据不同的条件进行数据处理和分类，提高对数据的分析和理解能力，进而实现更多复杂的数据处理任务。希望本文可以对你在PySpark开发中使用when函数有所帮助。