PySpark 在pyspark中的函数input()

在本文中，我们将介绍PySpark中的函数input()。在PySpark中，input()函数用于读取数据源中的数据，并返回一个由RDD（弹性分布式数据集）对象组成的集合。RDD是PySpark的核心概念之一，它代表一个不可变的、分布式的集合，能够高效地进行并行计算。

阅读更多：PySpark 教程

使用input()函数读取数据源

要使用input()函数读取数据源中的数据，首先需要创建一个SparkSession对象，它是与集群连接的主要入口点。然后，可以使用SparkSession的read属性来获取一个DataFrameReader对象，该对象提供了用于读取数据源的方法。最后，可以使用DataFrameReader对象的input()方法来读取数据源中的数据。

下面是一个使用input()函数读取CSV文件的示例：

from pyspark.sql import SparkSession

# 创建一个SparkSession对象
spark = SparkSession.builder \
    .appName("Read CSV") \
    .getOrCreate()

# 使用input()函数读取CSV文件
data = spark.read \
    .input("file:///path/to/file.csv") \
    .format("csv") \
    .option("header", "true") \
    .load()

# 打印读取的数据
data.show()

在上面的示例中，首先创建了一个SparkSession对象，然后使用input()函数读取了一个CSV文件。接下来，设置了文件的格式、是否包含列头等参数，并使用load()方法读取了数据。最后，使用show()方法打印读取的数据。

input()函数的参数

input()函数有多个参数，用于指定读取数据时的不同选项。以下是一些常用的参数：

path：数据源的路径，可以是本地文件系统的路径，也可以是分布式文件系统（如HDFS）的路径。
format：数据源的格式，例如csv、json、parquet等。
option：其他的读取选项，以键值对的形式指定。例如，option(“header”, “true”)表示数据源包含列头。
schema：指定数据的模式，例如StructType()。
load()：读取数据并返回一个DataFrame对象。

使用这些参数可以灵活地指定不同的数据源，以及读取数据的方式。

示例：从CSV文件读取数据

下面是一个完整的示例，演示了如何使用input()函数从CSV文件读取数据：

from pyspark.sql import SparkSession

# 创建一个SparkSession对象
spark = SparkSession.builder \
    .appName("Read CSV") \
    .getOrCreate()

# 使用input()函数读取CSV文件
data = spark.read \
    .input("file:///path/to/file.csv") \
    .format("csv") \
    .option("header", "true") \
    .load()

# 打印读取的数据
data.show()

在这个示例中，我们首先创建了一个SparkSession对象，并设置应用程序的名称。然后，使用input()函数读取了一个CSV文件，指定了文件的路径、格式和参数。最后，使用show()方法打印读取的数据。

总结

在本文中，我们介绍了PySpark中的函数input()。它是用于读取数据源中的数据并返回RDD对象的函数。我们看到了如何使用input()函数读取不同格式的数据源，以及如何使用参数来指定不同的选项。通过掌握input()函数的用法，我们可以方便地读取和处理各种类型的数据。希望本文对您学习PySpark有所帮助！