PySpark 简介
在本章中,我们将了解什么是Apache Spark以及PySpark是如何开发的。
Spark – 概述
Apache Spark是一个快如闪电的实时处理框架。它在内存中进行计算,实时分析数据。它的出现是因为 Apache Hadoop MapReduce 只进行批处理,缺乏实时处理功能。因此,Apache Spark被引入,因为它可以实时执行流处理,也可以处理批处理。
除了实时和批处理之外,Apache Spark还支持交互式查询和迭代算法。Apache Spark有自己的集群管理器,它可以在那里托管其应用程序。它利用Apache Hadoop进行存储和处理。它使用 HDFS (Hadoop分布式文件系统)进行存储,它也可以在 YARN 上运行Spark应用程序。
PySpark – 概述
Apache Spark是用 Scala编程语言 编写的 。 为了支持Python与Spark,Apache Spark社区发布了一个工具,PySpark。使用PySpark,你也可以用Python编程语言来处理 RDDs 。正是因为有了一个叫做 Py4j 的库,他们才能够实现这个目标。
PySpark提供了 PySpark Shell ,它将Python API链接到Spark核心,并初始化Spark上下文。如今大多数数据科学家和分析专家都使用Python,因为它有丰富的库集。将Python与Spark结合起来对他们来说是一个福音。