PySpark: 将DataFrame转换为RDD

在本文中，我们将介绍如何使用PySpark将DataFrame转换为弹性分布式数据集（RDD）。

简介

PySpark是Apache Spark的Python库，提供了一种高级API来处理大规模数据处理和分析。其中一个核心概念是DataFrame，它是一种分布式数据集，提供了类似于关系数据库的结构化数据处理能力。然而，有时候我们可能需要将DataFrame转换为RDD，以便执行更复杂的操作或与其他RDD进行交互。

使用toRDD()方法

PySpark提供了一个toRDD()方法，可以用来将DataFrame转换为RDD。该方法将DataFrame转换为一组元组，其中每个元组表示DataFrame的一行数据。每行数据都被转换为一个元组，其中包含了列名和对应的值。

以下是使用toRDD()方法将DataFrame转换为RDD的示例：

from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建DataFrame
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ["Name", "Age"])

# 将DataFrame转换为RDD
rdd = df.rdd

# 打印RDD中的数据
rdd.foreach(print)

上述代码中，我们首先创建了一个SparkSession对象，然后使用createDataFrame()方法创建了一个DataFrame，其中包含了一个名为”Name”的字符串列和一个名为”Age”的整数列。然后，我们使用rdd属性将DataFrame转换为RDD。最后，我们使用foreach()方法打印了RDD中的数据。

使用rdd()方法

另一种将DataFrame转换为RDD的方法是使用rdd()方法。该方法将DataFrame转换为RDD，其中RDD的每个元素都是一个Row对象。我们可以通过访问Row中的列来处理数据。

以下是使用rdd()方法将DataFrame转换为RDD的示例：

from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.getOrCreate()

# 创建DataFrame
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35)]
df = spark.createDataFrame(data, ["Name", "Age"])

# 将DataFrame转换为RDD
rdd = df.rdd

# 处理RDD中的数据
names = rdd.map(lambda row: row.Name)
ages = rdd.map(lambda row: row.Age)

# 打印数据
names.foreach(print)
ages.foreach(print)

上述代码中，我们首先创建了一个SparkSession对象，然后使用createDataFrame()方法创建了一个DataFrame。然后，我们使用rdd()方法将DataFrame转换为RDD。接下来，我们使用map()方法和lambda函数分别提取了RDD中的”Name”和”Age”列，并使用foreach()方法打印了数据。