PySpark 复制 PySpark 数据框中的列

在本文中，我们将介绍如何使用 PySpark 复制 PySpark 数据框中的列。PySpark 是 Apache Spark 提供的用于 Python 编程的 API，可以处理大规模的数据处理任务。数据框是 PySpark 中最常用的数据结构之一，用于组织和处理结构化数据。

阅读更多：PySpark 教程

什么是数据框？

数据框是一种二维表格数据结构，类似于关系型数据库中的表格。每个列都有一个名称和数据类型，可以进行各种数据操作和转换。在 PySpark 中，我们使用数据框来加载和处理大规模的数据集。

复制列的方法

在 PySpark 中，复制数据框中的列有几种常用的方法，下面我们会一一介绍。

使用 withColumn 方法

使用 withColumn 方法可以在现有数据框中添加一个新列，并将其复制为现有列的副本。下面是一个使用 withColumn 方法复制列的示例：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

# 创建 SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建示例数据框
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ["name", "age"])

# 复制 age 列
df_copy = df.withColumn("age_copy", col("age"))

# 显示数据框
df_copy.show()

在上面的示例中，我们首先创建了一个名为 df 的数据框，其中包含两列：name 和 age。然后，我们使用 withColumn 方法将 age 列复制为 age_copy 列，并将结果保存在名为 df_copy 的新数据框中。最后，我们使用 show 方法显示 df_copy 数据框。

使用 select 方法

使用 select 方法可以选择现有数据框的列，并将它们添加到新的数据框中。下面是一个使用 select 方法复制列的示例：

from pyspark.sql import SparkSession

# 创建 SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建示例数据框
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ["name", "age"])

# 复制 age 列
df_copy = df.select("name", "age", "age")

# 显示数据框
df_copy.show()

在上面的示例中，我们首先创建了一个名为 df 的数据框，其中包含两列：name 和 age。然后，我们使用 select 方法选择了 name、age 和 age 列，并将结果保存在名为 df_copy 的新数据框中。最后，我们使用 show 方法显示 df_copy 数据框。