Hadoop和SQL的区别
Hadoop: 它是一个将大数据存储在分布式系统中然后并行处理的框架。Hadoop 的四个主要组件是 Hadoop 分布式文件系统 (HDFS)、Yarn、MapReduce 和库。它不仅涉及大数据,还涉及结构化、半结构化和非结构化信息的混合。亚马逊、IBM、微软、Cloudera、ScienceSoft、Pivotal、Hortonworks 是一些使用 Hadoop 技术的公司。
SQL: 结构化查询语言是一种特定领域的语言,用于计算和处理关系数据库管理系统中的数据管理,它还处理关系数据流管理系统中的数据流。简而言之,SQL 是一种标准的数据库语言,用于从 MySQL、Oracle、SQL Server 等关系数据库中创建、存储和提取数据。
以下是 Hadoop 和 SQL 之间的差异表:
特性 | Hadoop | SQL |
---|---|---|
技术 | 现代 | 传统 |
体积 | 通常以 PB 为单位 | 通常以 GigaBytes 为单位 |
操作 | 数据的存储、处理、检索和模式提取 | 数据的存储、处理、检索和模式挖掘 |
容错 | Hadoop具有高度容错性 | SQL具有良好的容错性 |
存储 | 在分布式系统中以键值对、表、哈希映射等形式存储数据。 | 在云中以表格格式存储具有固定模式的结构化数据 |
缩放/扩展 | 线性 | 非线性 |
提供商 | Cloudera、Horton work、AWS 等提供 Hadoop 系统。 | SQL 系统的知名行业领导者是 Microsoft、SAP、Oracle 等。 |
数据访问 | 面向批处理的数据访问 | 交互式和面向批处理的数据访问 |
成本 | 它是开源的,系统可以经济有效地扩展它是经过许可的 | 购买 SQL 服务器要花一大笔钱,此外,如果系统存储空间不足,还会产生额外费用 |
时间 | 语句执行速度非常快 | SQL 语法在数百万行中执行时很慢 |
优化 | 它将数据存储在 HDFS 中,并通过 Map Reduce | 使用大量优化技术进行处理。它没有任何先进的优化技术 |
结构 | 动态模式,能够存储和处理日志数据、实时数据、图像、视频、传感器数据等(结构化和非结构化) | 静态模式,只能以表格格式存储数据(固定模式)(结构化) |
数据更新 | 一次写入数据,多次读取数据 | 多次读取和写入数据 |
完整性 | 低 | 高 |
交互 | Hadoop 使用 JDBC(Java Database Connectivity) 与 SQL 系统通信以发送和接收数据 | SQL 系统可以读取和写入数据到 Hadoop 系统 |
硬件 | 使用商品硬件 | 使用专有硬件 |
培训 | Hadoop 难度适中 | 即使是入门级专业人士也能轻松学习 SQL |