Scala 如何在Scala/Spark中创建一个样例DataFrame

在本文中，我们将介绍如何在Scala/Spark中创建一个样例DataFrame。DataFrame是一种分布式数据集，以表格形式组织的数据集合。在Scala/Spark中，DataFrame是一个非常重要且常用的数据结构，用于处理和分析大规模的结构化数据。

阅读更多：Scala 教程

创建DataFrame的常用方法

使用List创建DataFrame

可以使用toDF方法将一个List转换为DataFrame。下面是一个示例，在Spark Shell中使用Scala代码创建一个包含姓名和年龄的DataFrame：

val spark = SparkSession.builder().appName("Sample DataFrame").getOrCreate()

val data = List(("John", 25), ("Alice", 30), ("Bob", 35))

val df = data.toDF("Name", "Age")
df.show()

执行上述代码后，输出的结果如下：

+-----+---+
| Name|Age|
+-----+---+
| John| 25|
|Alice| 30|
|  Bob| 35|
+-----+---+

使用Seq创建DataFrame

除了使用List之外，还可以使用Seq创建一个DataFrame。下面是一个示例，在Scala中创建一个包含学生信息的DataFrame：

val spark = SparkSession.builder().appName("Sample DataFrame").getOrCreate()

val data = Seq(("John", "Math", 90), ("Alice", "Science", 85), ("Bob", "English", 80))

val df = data.toDF("Name", "Subject", "Score")
df.show()

执行上述代码后，输出的结果如下：

+-----+-------+-----+
| Name|Subject|Score|
+-----+-------+-----+
| John|   Math|   90|
|Alice|Science|   85|
|  Bob|English|   80|
+-----+-------+-----+

使用RDD创建DataFrame

另一种创建DataFrame的常用方法是使用RDD。在Scala中，可以使用createDataFrame方法将一个RDD转换为DataFrame。下面是一个示例，在Spark Shell中使用Scala代码创建一个包含员工信息的DataFrame：

val spark = SparkSession.builder().appName("Sample DataFrame").getOrCreate()

val data = spark.sparkContext.parallelize(Seq(("John", 25), ("Alice", 30), ("Bob", 35)))

val df = spark.createDataFrame(data).toDF("Name", "Age")
df.show()

执行上述代码后，输出的结果与使用List创建DataFrame的示例相同。

DataFrame的基本操作

查看DataFrame的结构

我们可以使用printSchema方法查看DataFrame的结构，即打印出DataFrame的列名和数据类型。下面是一个示例，在Spark Shell中使用Scala代码查看前面示例中创建的DataFrame的结构：

df.printSchema()

执行上述代码后，输出的结果如下：

root
 |-- Name: string (nullable = true)
 |-- Age: integer (nullable = true)

选择数据

我们可以使用select方法选择DataFrame中的某些列或进行列的计算操作，并返回一个新的DataFrame。下面是一个示例，在Spark Shell中使用Scala代码选择前面示例中DataFrame的姓名列和年龄列：

val result = df.select("Name", "Age")
result.show()

执行上述代码后，输出的结果如下：

+-----+---+
| Name|Age|
+-----+---+
| John| 25|
|Alice| 30|
|  Bob| 35|
+-----+---+

筛选数据

我们可以使用filter或where方法对DataFrame中的数据进行筛选操作，并返回满足条件的新的DataFrame。下面是一个示例，在Spark Shell中使用Scala代码筛选前面示例中DataFrame中年龄大于30的数据行：

val result = df.filter(df("Age") > 30)
result.show()

执行上述代码后，输出的结果如下：

+-----+---+
| Name|Age|
+-----+---+
|  Bob| 35|
+-----+---+

分组和聚合操作

我们可以使用groupBy方法对DataFrame中的数据进行分组操作，并使用聚合函数对分组后的数据进行计算。下面是一个示例，在Spark Shell中使用Scala代码对前面示例中DataFrame中的年龄进行求和操作：

val result = df.groupBy().sum("Age")
result.show()

执行上述代码后，输出的结果如下：

+--------+
|sum(Age)|
+--------+
|      90|
+--------+

排序数据

我们可以使用sort或orderBy方法对DataFrame中的数据进行排序操作。下面是一个示例，在Spark Shell中使用Scala代码对前面示例中DataFrame根据年龄列进行升序排序：

val result = df.sort("Age")
result.show()

执行上述代码后，输出的结果如下：

+-----+---+
| Name|Age|
+-----+---+
| John| 25|
|Alice| 30|
|  Bob| 35|
+-----+---+

总结

本文介绍了在Scala/Spark中创建一个样例DataFrame的常见方法，包括使用List、Seq和RDD。另外，还介绍了DataFrame的基本操作，如查看结构、选择数据、筛选数据、分组和聚合操作，以及排序数据等。通过本文的学习，读者可以掌握Scala/Spark中创建和操作DataFrame的基本技巧，并能够在实际工作中灵活运用。