SQL 在 Apache Spark DataFrame 中连接列

在本文中，我们将介绍如何在 Apache Spark DataFrame 中连接列。

在 Apache Spark 中，DataFrame 是一种分布式数据集合，可以处理大规模的结构化和半结构化数据。DataFrame 提供了丰富的 API，使得我们可以执行各种数据操作和转换。

在某些情况下，我们可能需要将 DataFrame 中的多个列连接起来，形成新的列。这种操作通常用于创建新的数据结构或根据现有列生成新的计算字段。

阅读更多：SQL 教程

CONCAT 函数

在 Apache Spark 中，可以使用 CONCAT 函数将多个列连接起来。CONCAT 函数接受任意数量的列，并返回一个新的字符串列，其中包含连接后的值。

下面是 CONCAT 函数的语法：

CONCAT(column1, column2, ...)

现在让我们通过一个实际的例子来演示如何使用 CONCAT 函数。

首先，我们要创建一个示例 DataFrame：

from pyspark.sql import SparkSession

# 创建 SparkSession
spark = SparkSession.builder.appName("ConcatenateColumns").getOrCreate()

# 创建示例 DataFrame
data = [("John", "Doe", 25),
        ("Jane", "Smith", 30),
        ("Alice", "Johnson", 35)]

df = spark.createDataFrame(data, ["first_name", "last_name", "age"])
df.show()

这将创建一个包含三列（”first_name”、”last_name” 和 “age”）的 DataFrame，并显示其内容：

+----------+---------+---+
|first_name|last_name|age|
+----------+---------+---+
|      John|      Doe| 25|
|      Jane|    Smith| 30|
|     Alice|  Johnson| 35|
+----------+---------+---+

接下来，我们可以使用 CONCAT 函数将 “first_name” 和 “last_name” 列连接起来，并创建一个名为 “full_name” 的新列：

from pyspark.sql.functions import concat

# 使用 CONCAT 函数连接列
df = df.withColumn("full_name", concat(df.first_name, df.last_name))

df.show()

这将在 DataFrame 中添加一个名为 “full_name” 的新列，并显示结果：

+----------+---------+---+---------+
|first_name|last_name|age|full_name|
+----------+---------+---+---------+
|      John|      Doe| 25| JohnDoe |
|      Jane|    Smith| 30| JaneSmith |
|     Alice|  Johnson| 35| AliceJohnson |
+----------+---------+---+---------+

可以看到，”first_name” 和 “last_name” 列的值已被连接起来，并存储在新的 “full_name” 列中。

除了连接字符串列，CONCAT 函数还可以连接其他类型的列。例如，我们可以连接字符串列和整数列：

# 使用 CONCAT 函数连接字符串列和整数列
df = df.withColumn("name_and_age", concat(df.full_name, df.age))

df.show()

这将在 DataFrame 中添加一个名为 “name_and_age” 的新列，并显示结果：

+----------+---------+---+---------+----------------+
|first_name|last_name|age|full_name|   name_and_age |
+----------+---------+---+---------+----------------+
|      John|      Doe| 25| JohnDoe |    JohnDoe25 |
|      Jane|    Smith| 30| JaneSmith |  JaneSmith30 |
|     Alice|  Johnson| 35| AliceJohnson | AliceJohnson35 |
+----------+---------+---+---------+----------------+

可以看到，”full_name” 列和 “age” 列的值已被连接起来，并存储在新的 “name_and_age” 列中。