Hadoop 2.x 与 Hadoop 3.x 的区别

Hadoop 2.x 与 Hadoop 3.x 的区别

Hadoop 由 Doug Cutting 和 Mike Cafarella 于 2005 年开发。哪个是用于处理大型数据的开源软件?本文的目的是让您熟悉 Hadoop 2.x 与 Hadoop 3.x 版本之间的差异。显然,Hadoop 3.x 比旧版本的 Hadoop 2.x 有一些更高级和兼容的特性。

Hadoop 2.x 与 Hadoop 3.x 比较和区别

编号 特性 Hadoop 2.x Hadoop 3.x
1 许可证 Apache 2.0 用于许可,它是开源的。 Apache 2.0 用于开源许可。
2 最低支持的 Java 版本 JAVA 7 是最低兼容版本。 JAVA 8 是最低兼容版本。
3 容错 复制是处理非空间优化的容错的唯一方法。 擦除编码用于处理容错。
4 数据平衡 HDFS 平衡器用于数据平衡。 使用数据内节点平衡器,通过 HDFS 磁盘平衡器命令行界面调用。
5 存储方案 使用 3x 复制方案。 在 HDFS 中使用橡皮擦编码。
6 存储开销 Hadoop 2.x 中消耗了 200% 的 HDFS Hadoop 3.x 中使用了 50%,这意味着有更多的工作空间。
7 YARN Timeline Service 使用具有可伸缩性问题的时间线服务。 改进时间线服务,同时提高该服务的可扩展性和可靠性。
8 可扩展性 有限的可扩展性,一个集群中最多可以有 10000 个节点。 可扩展性得到改善,集群中可以有超过 10000 个节点。
9 默认端口范围 (32768-61000) 默认使用 Linux 临时端口范围,启动时绑定失败。 使用的端口不在此临时端口范围内。
10 兼容的文件系统 HDFS(默认)、FTP、Amazon S3 和 Windows Azure 存储 Blob (WASB) 文件系统。 所有文件系统,包括 Microsoft Azure Data Lake 文件系统。
11 名称节点恢复 名称节点恢复需要手动干预。 名称节点恢复无需手动干预。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程