PySpark 环境搭建
在本章中,我们将了解PySpark的环境设置。
注意 - 这是考虑到你的电脑上已经安装了Java和Scala。
现在让我们通过以下步骤下载并设置PySpark。
第1步 - 进入Apache Spark的官方下载 页面,下载那里提供的最新版本的Apache Spark。在本教程中,我们使用的是 spark-2.1.0-bin-hadoop2.7 。
第2步 - 现在,提取下载的Spark tar文件。默认情况下,它将被下载到Downloads目录。
# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz
它将创建一个目录 spark-2.1.0-bin-hadoop2.7 。 在启动PySpark之前,你需要设置以下环境,以设置Spark路径和 Py4j路径。
export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7
export PATH = PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin
export PYTHONPATH =SPARK_HOME/python:SPARK_HOME/python/lib/py4j-0.10.4-src.zip:PYTHONPATH
export PATH = SPARK_HOME/python:PATH
或者,要在全局范围内设置上述环境,把它们放在 .bashrc文件 中 。 然后运行以下命令,使环境发挥作用。
# source .bashrc
现在我们已经设置好了所有的环境,让我们到Spark目录下,通过运行以下命令调用PySpark shell —
# ./bin/pyspark
这将启动你的PySpark外壳。
Python 2.7.12 (default, Nov 19 2016, 06:48:10)
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 2.1.0
/_/
Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
SparkSession available as 'spark'.
<<<