PySpark：如何在一个groupBy中计算平均值和计数

在本文中，我们将介绍如何在PySpark中使用groupBy函数同时计算平均值和计数。PySpark是一个用于大规模数据处理的分布式计算框架，它提供了丰富的API和功能，可以轻松处理和分析大数据集。

PySpark和groupBy函数

PySpark是Apache Spark的Python接口，它允许我们使用Python编写分布式计算任务。groupBy函数是DataFrame API中的一个基本函数，用于对数据进行分组聚合操作。它接受一个或多个列名参数，并将数据集按照这些列进行分组。

使用groupBy函数，我们可以得到一个GroupedData对象，它表示按照指定列进行分组后的数据。接下来，我们可以对GroupedData对象应用各种聚合函数来计算统计量。

计算平均值和计数

要同时计算平均值和计数，我们可以使用PySpark中的agg函数。agg函数用于对GroupedData对象应用一个或多个聚合函数，并返回一个新的DataFrame对象。

下面是一个示例，展示了如何在一个groupBy中同时计算平均值和计数：

from pyspark.sql import SparkSession

# 创建SparkSession对象
spark = SparkSession.builder.getOrCreate()

# 创建示例数据
data = [("Alice", 25), ("Bob", 30), ("Charlie", 35), ("Alice", 40), ("Bob", 45)]
df = spark.createDataFrame(data, ["Name", "Age"])

# 按照Name列分组，并计算平均年龄和人数
result = df.groupBy("Name").agg({"Age": "avg", "Name": "count"})

# 显示结果
result.show()

输出结果如下：

+-------+-----------------+-----------+
|   Name|       avg(Age)|count(Name)|
+-------+-----------------+-----------+
|    Bob|             37.5|          2|
|Charlie|             35.0|          1|
|  Alice|             32.5|          2|
+-------+-----------------+-----------+

结果中的avg(Age)列给出了每个分组的平均年龄，count(Name)列给出了每个分组中的人数。

在上述示例中，我们首先创建了一个SparkSession对象，然后使用该对象创建了一个DataFrame，其中包含了一些示例数据。接下来，我们使用groupBy函数按照Name列对数据进行分组。然后，我们使用agg函数对GroupedData对象应用了两个聚合函数，分别计算了平均年龄和人数。最后，我们调用show函数显示了计算结果。