MapReduce和Pig的区别

MapReduce

MapReduce是一种在Hadoop上工作的模型，可以有效地访问存储在HDFS(Hadoop分布式文件系统)中的大数据。它是Hadoop的核心组件，它将大数据分成小块，并对其进行并行处理。

MapReduce的特点：

MapReduce可以在不同的服务器上存储和分配巨大的数据。
MapReduce允许用户以地图和还原的形式存储数据，以获得处理。
MapReduce能保护系统不被任何未经授权的访问。
MapReduce支持并行处理模式。

Pig

Pig是一个开源工具，建立在Hadoop生态系统上，提供更好的大数据处理。它是一种类似于SQL的语言。它是一种高级脚本语言，通常被称为Pig Latin脚本。Pig脚本能够创建用户定义的函数来分析和处理数据。它在HDFS(Hadoop分布式文件系统)上工作，支持使用各种类型的数据。即使没有良好的Java知识，也可以通过使用Pig轻松完成MapReduce任务。

Pig的特点：

Pig允许用户创建自定义的用户定义函数。
Pig的使用是可扩展的。
Pig支持各种数据类型，如：char，long，float，schema和函数。
在HDFS上提供不同的操作，如：GROUP, FILTER, JOIN, SORT。

MapReduce和Pig的比较和区别

序号	MapReduce	Pig
1	MapReduce是一种数据处理语言。	MapReduce是一种数据流语言。
2	MapReduce将工作转换为map-reduce函数。	MapReduce将查询转换为map-reduce函数。
3	MapReduce是一种低级别的语言。	MapReduce是一种高级语言
4	使用户难以执行连接操作。	使得用户很容易执行连接操作。
5	用户需要编写比Pig多10倍的代码来完成类似的任务。	用户需要写更少的代码行，因为它支持多查询方法。
6	MapReduce有多个作业，因此执行时间更长。	由于Pig运算器将其转换为MapReduce作业，所以它的编译时间较短。
7	MapReduce被最近版本的Hadoop所支持。	所有版本的Hadoop都支持它。