PySpark Pyspark DataFrame 按列列表排序

在本文中，我们将介绍如何使用PySpark的DataFrame按照列列表进行排序。DataFrame是PySpark中最常用的数据结构之一，它类似于关系型数据库中的表格形式，可以进行数据的整理、过滤和转换等操作。而排序是对数据进行整理和分析的重要操作之一。

阅读更多：PySpark 教程

创建示例数据

在介绍排序方法之前，我们先创建一个示例数据用于排序操作的演示。我们可以通过在Python中定义一个列表的方式创建一个DataFrame，并赋值给它一个结构化的数据集。

from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.appName("OrderBy Example").getOrCreate()

# 创建示例数据
data = [('Alice', 25, 100),
        ('Bob', 22, 90),
        ('Catherine', 28, 95),
        ('David', 20, 80),
        ('Emily', 22, 75)]

# 创建DataFrame
df = spark.createDataFrame(data, ['Name', 'Age', 'Score'])

# 显示DataFrame
df.show()

上述代码中，我们使用pyspark.sql.SparkSession创建一个SparkSession实例，然后通过createDataFrame()方法将一个列表转换为DataFrame。列表中的每个元素是一个由名字、年龄和分数三个字段组成的元组。最后，通过调用show()方法，我们可以打印出DataFrame的内容，以便查看结果。

按列列表排序

对DataFrame进行排序可以使用orderBy()函数，该函数可以按照指定的列进行排序。我们可以将列名作为参数传递给orderBy()函数，以按照指定列的升序排序。

以下是一个示例，演示如何按照年龄和分数两列进行排序：

sorted_df = df.orderBy('Age', 'Score')

sorted_df.show()

上述代码中，我们调用了orderBy()函数，并将’Age’和’Score’作为参数传递给该函数，以指定按照这两列进行排序。最后，我们通过调用show()方法打印出排序后的结果。

按列列表降序排序

如果我们需要进行降序排序，可以使用desc()函数对排序的列进行降序排列。

以下是一个示例，演示如何按照年龄和分数两列进行降序排序：

sorted_df_desc = df.orderBy(df['Age'].desc(), df['Score'].desc())

sorted_df_desc.show()

上述代码中，我们调用了orderBy()函数，并使用desc()函数对’Age’和’Score’两列进行降序排序。df['Age'].desc()表示对’Age’列进行降序排列，df['Score'].desc()表示对’Score’列进行降序排列。

按列列表排序的结果

通过对DataFrame进行排序，我们可以按照指定的列顺序对数据进行整理和分析。排序后的结果是一个新的DataFrame，它包含了按顺序排列的数据。

在上述示例中，我们按照年龄和分数两列进行排序后的结果如下：

+---------+---+-----+
|     Name|Age|Score|
+---------+---+-----+
|    David| 20|   80|
|      Bob| 22|   90|
|    Emily| 22|   75|
|    Alice| 25|  100|
|Catherine| 28|   95|
+---------+---+-----+

可以看到，排序后的DataFrame按照年龄和分数两列进行了排序，先按照年龄升序排列，再按照分数升序排列。