PySpark 教程
Apache Spark是用Scala编程语言编写的。为了支持Python使用Spark,Apache Spark社区发布了一个工具,PySpark。使用PySpark,您也可以使用Python编程语言工作。这是因为它们能够使用一个叫做Py4j的库来实现这一点。这是一个入门教程,涵盖了数据驱动文档的基础知识,并解释了如何处理其各个组件和子组件。
教程对象
本教程适用于那些希望在编程语言和实时处理框架方面职业发展的专业人士。本教程旨在使读者能够舒适地入门PySpark及其各个模块和子模块。
先决条件
在继续阅读本教程中提供的各种概念之前,假设读者已经了解编程语言和框架的基本概念。此外,如果读者对Apache Spark、Apache Hadoop、Scala编程语言、Hadoop分布式文件系统(HDFS)和Python有扎实的知识,这将非常有帮助。