PySpark 环境搭建

在本章中，我们将了解PySpark的环境设置。

注意 - 这是考虑到你的电脑上已经安装了Java和Scala。

现在让我们通过以下步骤下载并设置PySpark。

第1步 - 进入Apache Spark的官方下载页面，下载那里提供的最新版本的Apache Spark。在本教程中，我们使用的是 spark-2.1.0-bin-hadoop2.7 。

第2步 - 现在，提取下载的Spark tar文件。默认情况下，它将被下载到Downloads目录。

# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz

它将创建一个目录 spark-2.1.0-bin-hadoop2.7 。 在启动PySpark之前，你需要设置以下环境，以设置Spark路径和 Py4j路径。

export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7
export PATH =  $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin export PYTHONPATH =$ SPARK_HOME/python: $SPARK_HOME/ python /lib/py4j-0.10.4-src.zip:$ PYTHONPATH
export PATH =  $SPARK_HOME/python:$ PATH

或者，要在全局范围内设置上述环境，把它们放在 .bashrc文件 中。然后运行以下命令，使环境发挥作用。

# source .bashrc

现在我们已经设置好了所有的环境，让我们到Spark目录下，通过运行以下命令调用PySpark shell —

# ./bin/pyspark

这将启动你的PySpark外壳。

Python 2.7.12 (default, Nov 19 2016, 06:48:10) 
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.1.0
      /_/
Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
SparkSession available as 'spark'.
<<<

PySpark 环境搭建

PySpark 环境搭建

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

PySpark教程

回顶部