PySpark 简介

PySpark 简介

在这一章中,我们将介绍什么是Apache Spark以及PySpark是如何开发的。

Spark – 概述

Apache Spark是一个闪电般快速的实时处理框架。它能够进行内存计算来实时分析数据。由于Apache Hadoop MapReduce只能进行批处理且缺乏实时处理功能,因此引入了Apache Spark。因此,Apache Spark能够实时进行流式处理,同时也能处理批处理任务。

除了实时和批处理之外,Apache Spark还支持交互式查询和迭代算法。Apache Spark拥有自己的集群管理器,可以在其中托管其应用。它利用Apache Hadoop进行存储和处理。它使用HDFS(Hadoop分布式文件系统)进行存储,并且也可以在YARN上运行Spark应用。

PySpark – 概述

Apache Spark是用Scala编程语言编写的。为了支持Python和Spark,Apache Spark社区开发了一个工具,即PySpark。使用PySpark,您可以在Python编程语言中处理RDD。这是因为有一个名为Py4j的库使得它们能够实现这一点。

PySpark提供了PySpark Shell,它将Python API与Spark核心连接起来并初始化Spark上下文。现如今,大多数数据科学家和分析专家都使用Python,因为它拥有丰富的库集。将Python与Spark集成对他们来说是一个福音。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程