Hadoop 2.x 与 Hadoop 3.x 的区别|极客教程

Hadoop 2.x 与 Hadoop 3.x 的区别

Hadoop 由 Doug Cutting 和 Mike Cafarella 于 2005 年开发。哪个是用于处理大型数据的开源软件？本文的目的是让您熟悉 Hadoop 2.x 与 Hadoop 3.x 版本之间的差异。显然，Hadoop 3.x 比旧版本的 Hadoop 2.x 有一些更高级和兼容的特性。

Hadoop 2.x 与 Hadoop 3.x 比较和区别

编号	特性	Hadoop 2.x	Hadoop 3.x
1	许可证	Apache 2.0 用于许可，它是开源的。	Apache 2.0 用于开源许可。
2	最低支持的 Java 版本	JAVA 7 是最低兼容版本。	JAVA 8 是最低兼容版本。
3	容错	复制是处理非空间优化的容错的唯一方法。	擦除编码用于处理容错。
4	数据平衡	HDFS 平衡器用于数据平衡。	使用数据内节点平衡器，通过 HDFS 磁盘平衡器命令行界面调用。
5	存储方案	使用 3x 复制方案。	在 HDFS 中使用橡皮擦编码。
6	存储开销	Hadoop 2.x 中消耗了 200% 的 HDFS	Hadoop 3.x 中使用了 50%，这意味着有更多的工作空间。
7	YARN Timeline Service	使用具有可伸缩性问题的时间线服务。	改进时间线服务，同时提高该服务的可扩展性和可靠性。
8	可扩展性	有限的可扩展性，一个集群中最多可以有 10000 个节点。	可扩展性得到改善，集群中可以有超过 10000 个节点。
9	默认端口范围 (32768-61000)	默认使用 Linux 临时端口范围，启动时绑定失败。	使用的端口不在此临时端口范围内。
10	兼容的文件系统	HDFS(默认)、FTP、Amazon S3 和 Windows Azure 存储 Blob (WASB) 文件系统。	所有文件系统，包括 Microsoft Azure Data Lake 文件系统。
11	名称节点恢复	名称节点恢复需要手动干预。	名称节点恢复无需手动干预。