PySpark RDD
现在我们已经在我们的系统上安装和配置了PySpark,我们可以在Apache Spark上用Python编程。然而,在这样做之前,让我们了解Spark中的一个基本概念 – RDD。
RDD是 Resilient Distributed Dataset 的缩写,这些元素在多个节点上运行和操作,在集群上做并行处理。RDD是不可改变的元素,这意味着一旦你创建了一个RDD,你就不能改变它。RDDs也是容错的,因此在发生任何故障时,它们会自动恢复。你可以在这些RDDs上应用多种操作,以实现某个任务。
要在这些RDD上应用操作,有两种方法
- Transformation
- Action
让我们详细了解这两种方式。
Transformation --这些是应用于RDD的操作,以创建一个新的RDD。过滤器、groupBy和地图是转换的例子。
Action - 这些是应用在RDD上的操作,它指示Spark执行计算并将结果送回给驱动。
为了在PySpark中应用任何操作,我们需要首先创建一个 PySpark RDD 。 下面的代码块有PySpark RDD类的细节 –
让我们看看如何使用PySpark运行一些基本操作。下面的代码在Python文件中创建了RDD词,它存储了一组提到的词。
我们现在将对单词进行一些操作。
count()
返回RDD中元素的数量。
命令 - count()的命令是 —
输出 - 上述命令的输出是 —
collect()
返回RDD中的所有元素。
命令 - collect()的命令是 —
输出 - 上述命令的输出是 —
foreach(f)
只返回那些符合foreach里面的函数条件的元素。在下面的例子中,我们在foreach中调用了一个打印函数,它打印了RDD中的所有元素。
命令 - foreach(f)的命令是 —
输出 - 上述命令的输出是 —
filter(f)
一个新的RDD被返回,其中包含满足过滤器内部函数的元素。在下面的例子中,我们过滤掉含有 “spark “的字符串。
命令 - filter(f)的命令是 —
输出 - 上述命令的输出是 —
map(f, preservesPartitioning = False)
通过对RDD中的每个元素应用一个函数,返回一个新的RDD。在下面的例子中,我们形成了一个键值对,并将每个字符串映射为1的值。
命令 - map(f, preservesPartitioning=False)的命令是 —
输出 - 上述命令的输出是 —
reduce(f)
在执行指定的换元和关联二元操作后,RDD中的元素被返回。在下面的例子中,我们从运算器中导入add包,并在’num’上应用它来执行一个简单的加法运算。
命令 - reduce(f)的命令是 —
输出 - 上述命令的输出是 —
join(other, numPartitions = None)
它返回具有一对元素的RDD,这些元素具有匹配的键和该特定键的所有值。在下面的例子中,两个不同的RDD中有两对元素。连接这两个RDD后,我们得到一个RDD,其中的元素具有匹配的键和它们的值。
命令 - join(other, numPartitions = None)的命令是 —
输出 - 上述命令的输出是 —
cache()
以默认的存储级别(MEMORY_ONLY)持久化这个RDD。你也可以检查该RDD是否被缓存了。
命令 - cache()的命令是 —
输出 - 上述程序的输出是 —
这些是在PySpark RDD上进行的一些最重要的操作。