Hadoop 2.x 与 Hadoop 3.x 的区别
Hadoop 由 Doug Cutting 和 Mike Cafarella 于 2005 年开发。哪个是用于处理大型数据的开源软件?本文的目的是让您熟悉 Hadoop 2.x 与 Hadoop 3.x 版本之间的差异。显然,Hadoop 3.x 比旧版本的 Hadoop 2.x 有一些更高级和兼容的特性。
Hadoop 2.x 与 Hadoop 3.x 比较和区别
编号 | 特性 | Hadoop 2.x | Hadoop 3.x |
---|---|---|---|
1 | 许可证 | Apache 2.0 用于许可,它是开源的。 | Apache 2.0 用于开源许可。 |
2 | 最低支持的 Java 版本 | JAVA 7 是最低兼容版本。 | JAVA 8 是最低兼容版本。 |
3 | 容错 | 复制是处理非空间优化的容错的唯一方法。 | 擦除编码用于处理容错。 |
4 | 数据平衡 | HDFS 平衡器用于数据平衡。 | 使用数据内节点平衡器,通过 HDFS 磁盘平衡器命令行界面调用。 |
5 | 存储方案 | 使用 3x 复制方案。 | 在 HDFS 中使用橡皮擦编码。 |
6 | 存储开销 | Hadoop 2.x 中消耗了 200% 的 HDFS | Hadoop 3.x 中使用了 50%,这意味着有更多的工作空间。 |
7 | YARN Timeline Service | 使用具有可伸缩性问题的时间线服务。 | 改进时间线服务,同时提高该服务的可扩展性和可靠性。 |
8 | 可扩展性 | 有限的可扩展性,一个集群中最多可以有 10000 个节点。 | 可扩展性得到改善,集群中可以有超过 10000 个节点。 |
9 | 默认端口范围 (32768-61000) | 默认使用 Linux 临时端口范围,启动时绑定失败。 | 使用的端口不在此临时端口范围内。 |
10 | 兼容的文件系统 | HDFS(默认)、FTP、Amazon S3 和 Windows Azure 存储 Blob (WASB) 文件系统。 | 所有文件系统,包括 Microsoft Azure Data Lake 文件系统。 |
11 | 名称节点恢复 | 名称节点恢复需要手动干预。 | 名称节点恢复无需手动干预。 |