PySpark 如何从PySpark数据帧中随机抽取一行

在本文中，我们将介绍如何使用PySpark从一个数据帧中随机抽取一行。PySpark是Apache Spark的Python API，它提供了分布式数据处理和分析的功能。PySpark使用DataFrame来操作和处理大规模数据集。

在PySpark中，我们可以使用sample()方法从数据帧中随机抽取样本。该方法可以采样出数据集的一部分，并返回一个新的数据集。我们可以调整抽样的比例来控制抽取的行数。

以下是使用sample()方法随机抽取一行的示例：

from pyspark.sql import SparkSession

# 创建一个Spark会话
spark = SparkSession.builder.getOrCreate()

# 读取CSV文件，并创建数据帧
dataframe = spark.read.csv("data.csv", header=True, inferSchema=True)

# 从数据帧中随机抽取一行
random_row = dataframe.sample(0.001).take(1)[0]

# 打印随机抽取的行
print(random_row)

在上面的示例中，我们首先创建了一个Spark会话，并使用read.csv()方法从CSV文件中创建了一个数据帧。然后，我们使用sample()方法从数据帧中随机抽取了0.1%的样本，并使用take(1)方法获取抽取的行。最后，我们打印了随机抽取的行。

请注意，sample()方法的参数是采样的比例。在上面的示例中，我们使用了0.001作为参数，这意味着我们将从数据集中随机抽取0.1%的行。

如果您想要随机抽取多行，您可以使用takeSample()方法。这个方法类似于sample()方法，但是返回一个指定大小的样本列表。

以下是使用takeSample()方法随机抽取多行的示例：

from pyspark.sql import SparkSession

# 创建一个Spark会话
spark = SparkSession.builder.getOrCreate()

# 读取CSV文件，并创建数据帧
dataframe = spark.read.csv("data.csv", header=True, inferSchema=True)

# 从数据帧中随机抽取多行
random_rows = dataframe.takeSample(False, 5)

# 打印随机抽取的多行
for row in random_rows:
    print(row)

在上面的示例中，我们使用了False作为takeSample()方法的第一个参数，以表示是否允许有重复的抽样。这里我们选择了不允许重复抽样的选项。然后，我们指定了需要抽取的行数，这里是5，然后我们使用takeSample()方法抽取了5行样本，并将其存储在random_rows列表中。最后，我们使用循环打印出了随机抽取的多行。

阅读更多：PySpark 教程