数据湖和数据仓库的区别
数据湖: 数据湖是一个概念,所有类型的数据都可以以低成本但极具适应性的存储/区域登陆。之后进行检查以获得潜在的见解。这是 ETL/DWH 专业人士所说的数据着陆区的又一进步。只是目前我们正在查看所有类型的信息。独立于构造、结构、元数据等。Data Lake 背后的一个想法是,目前的创新使得存储公司生成/购买的所有信息成为可能(在此之前它会例如,公司必须选择相关信息并存储在结构化的配送中心中。)。
数据仓库: 数据仓库本质上是一个基于云的社交数据库或一个集中式计算机服务器。它从转移的、异构的来源收集信息,这是支持任何企业管理的调查和选择准备的最主要原因。
数据仓库的特点是面向主题、坐标、时变和不稳定的信息收集,以提供业务洞察力并在选择过程中提供帮助。
数据湖和数据仓库的区别
数据湖 | 数据仓库 |
---|---|
数据保存在 数据湖的原始框架中,所有数据都独立于信息源而保存。它们就像在任何需要的时候变成了其他形状一样。 | 数据仓库由从基于价值的和其他测量框架中提取出来的数据组成。这里的信息不是原始形状,而是不断变化和清洁的。 |
数据湖的最大目标是数据研究人员、大数据工程师和机器学习工程师,他们应该深入调查以形成商业模型,例如预测建模。 | 数据仓库的主要目标是运营客户,因为这些信息是有组织的,可以为构建报告提供准备。因此,它们通常用于贸易情报。 |
数据湖的输入最多的是各种信息,例如有组织的、半结构化的和非结构化的信息。这些信息以其独特的形式存在于数据湖中。 | 数据仓库的主要输入是来自基于价值和测量框架的有组织的信息,这些框架在那时以模式的形式组织。 |
包含将或可能不会被整理的原始数据。 | 数据仓库由集中的精选数据组成,可用于商业洞察和分析目的。 |
数据不是标准化形式。 | 非规范化模式 |
数据湖与信息仓库相比,在 Hadoop、机器学习等数据湖中使用的进步是适度现代的。 | 数据仓库用于数据仓库的技术比较老。 |
数据湖可以包含各种信息,并且可以在记住过去、展示和前景的情况下使用。 | 就数据仓库而言,数据仓库大部分时间都在分析不同来源的数据。 |
数据湖内部的数据深度开放,可以快速更新。 | 数据仓库内部的数据更复杂,需要更多的获取才能对其进行任何更改,可用性也受到限制,因为它是授权用户。 |