PySpark教程
Apache Spark是用Scala编程语言编写的。为了支持Python与Spark,Apache Spark社区发布了一个工具,PySpark。使用PySpark,你也可以用Python编程语言来处理RDDs。正是因为有了一个叫做Py4j的库,他们才能够实现这个目标。这是一个介绍性的教程,涵盖了数据驱动文档的基础知识,并解释了如何处理其各种组件和子组件。
听众
本教程是为那些有志于在编程语言和实时处理框架方面有所作为的专业人士准备的。本教程的目的是使读者在开始使用PySpark及其各种模块和子模块时感到舒适。
前提条件
在继续学习本教程中的各种概念之前,我们假定读者已经知道什么是编程语言和框架。此外,如果读者对Apache Spark、Apache Hadoop、Scala编程语言、Hadoop分布式文件系统(HDFS)和Python有良好的了解,那将会非常有帮助。