Apache Hadoop和亚马逊Redshift的区别

Hadoop 是一个建立在机器集群上的开源软件框架。它被用于分布式存储和分布式处理非常大的数据集，即大数据。它是使用Map-Reduce编程模型完成的。用Java实现，一个开发友好的工具支持大数据应用。它很容易在商品服务器集群上处理大量的数据。它可以挖掘任何形式的数据，即结构化、非结构化或半结构化。它是高度可扩展的。它由3个部分组成：

HDFS：可靠的存储系统，世界上一半的数据都存储在其中。
Map Reduce：该层由分布式处理器组成。
Yarn：该层由一个资源管理器组成。

亚马逊RedShift 是一个基于云的大规模数据仓库服务。亚马逊Redshift有一个商业许可，是亚马逊网络服务的一部分。它处理大规模的数据，并以其可扩展性而闻名。它可以对多个数据进行并行处理。它使用ACID属性作为其工作原则，非常受欢迎。它是用C语言实现的，具有高可用性。亚马逊Redshift的特点—快速、简单、经济的数据仓库服务。

下面是Apache Hadoop与Amazon Redshift之间的差异表。

Apache Hadoop	亚马逊RedShift
Hadoop的成本是Redshift的10倍。它每月的费用约为200美元。	Redshift比Hadoop便宜，每月花费20美元，因为价格取决于服务器的区域。
Hadoop中的Map Reduce作业比较慢。	Redshift的性能比Hadoop集群快得多。比如说。Redshift的16个节点集群比Hive/Elastic Map Reduce的44个节点集群执行得快很多。
Hadoop有一个存储层，将数据存储为文件，不考虑任何底层数据结构。	Redshift是一个列式数据库，被设计用来处理跨越数百万行的复杂查询。数据以表的形式排列，支持基于PostgreSQL标准的结构。
使用HDFS的set和get shell命令来复制数据到Hadoop集群。	Redshift中的数据首先通过使用Amazon S3复制，然后通过复制命令复制。
在Hadoop中，扩展并不是一个限制性因素，因为通过适当的管理和整合节点进程，可以扩展到任何数量的存储空间。	Redshift只能扩展到2PB。
与Redshift相比，速度较慢。运行1.2TB的数据需要1491秒(24.85分钟)	比Hadoop快十倍。运行1.2TB的数据需要155秒(2.5分钟)。
Hadoop是Apache项目的一个开源框架。	RedShift是由亚马逊提供的有价服务。
Hadoop更灵活，有本地文件系统和任何数据库	Redshift只能从Amazon S3或DynamoDB加载数据。
在Hadoop中，管理活动很复杂，处理起来比较棘手。	Redshift有自动备份到Amazon S3和数据仓库管理。
它由Hortonworks和Cloudera供应商等提供，	Redshift是由亚马逊网络服务开发和提供的。
在可扩展性方面有一些限制。	在可扩展性方面没有这样的限制。