PySpark 在collect_list中包含空值

在本文中，我们将介绍在PySpark中如何在collect_list函数中包含空值。collect_list函数用于将指定列的值作为数组聚合到一起。默认情况下，collect_list函数会过滤掉空值。然而，在某些情况下，我们可能希望包含这些空值。下面我们将详细介绍如何实现这一点。

阅读更多：PySpark 教程

创建示例数据

为了演示如何在collect_list中包含空值，我们首先需要创建一些示例数据。假设我们有一个包含姓名和年龄的DataFrame，如下所示：

from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType, IntegerType

spark = SparkSession.builder.appName("NullValuesInCollectList").getOrCreate()

# 创建示例数据
data = [("Alice", 18),
        ("Bob", None),
        ("Charlie", 25),
        ("Dave", None),
        ("Eve", 21)]

# 创建DataFrame
schema = StructType([
    StructField("name", StringType(), nullable=False),
    StructField("age", IntegerType(), nullable=True)
])

df = spark.createDataFrame(data, schema)
df.show()

运行上述代码后，我们将得到以下DataFrame：

+-------+----+
|   name| age|
+-------+----+
|  Alice|  18|
|    Bob|null|
|Charlie|  25|
|   Dave|null|
|    Eve|  21|
+-------+----+

现在我们已经有了一个包含姓名和年龄的示例DataFrame，我们可以使用collect_list函数来演示如何在其中包含空值。

在collect_list中包含空值

要在collect_list中包含空值，我们可以使用when函数和lit函数来将空值替换成自定义的特殊值。然后在collect_list函数中使用该特殊值。下面是一个示例代码：

from pyspark.sql.functions import collect_list, when, lit

# 将空值替换成特殊值
df_with_special_value = df.withColumn("age_with_special_value", when(df.age.isNull(), lit("N/A")).otherwise(df.age))

# 使用collect_list函数包含特殊值
df_with_null_values = df_with_special_value.groupby("name").agg(collect_list("age_with_special_value").alias("ages"))
df_with_null_values.show()

运行上述代码后，我们将得到以下结果：

+-------+-----------+
|   name|       ages|
+-------+-----------+
|  Alice|       [18]|
|Charlie|       [25]|
|    Bob|      [N/A]|
|   Dave|      [N/A]|
|    Eve|       [21]|
+-------+-----------+

如上所示，我们成功地在collect_list函数中包含了空值。空值被替换为了”N/A”作为特殊值。

总结

在PySpark中，collect_list函数默认会过滤掉空值。然而，我们可以使用when函数和lit函数将空值替换为特殊值，并在collect_list中包含它们。通过这种方式，我们可以在聚合操作中包含空值，并更好地满足我们的需求。希望本文对你理解如何在collect_list中包含空值有所帮助！