PySpark 环境搭建
在这一章中,我们将了解PySpark的环境设置。
注意 − 假设您的计算机上已安装了Java和Scala。
接下来,让我们通过以下步骤下载并设置PySpark。
第一步 − 前往官方Apache Spark 下载 页面,并下载最新版本的Apache Spark。在本教程中,我们使用的是 spark-2.1.0-bin-hadoop2.7 。
第二步 − 现在,解压下载的Spark压缩文件。默认情况下,它将下载到Downloads目录中。
它将创建一个目录 spark-2.1.0-bin-hadoop2.7 。在启动PySpark之前,您需要设置以下环境变量来设置Spark路径和 Py4j的路径 。
或者,要全局设置上述环境变量,请将它们放在 .bashrc文件 中。然后运行以下命令使环境变量生效。
现在,我们已经设置好了所有的环境,让我们转到Spark目录,并通过运行以下命令来调用PySpark shell –
这将启动您的PySpark shell。