小数据和大数据的区别
小数据: 可以定义为能够影响当前决策的小数据集。当前正在进行的任何事情,其数据可以累积在 Excel 文件中。小数据也有助于做出决策,但并不旨在在很大程度上影响业务,而是将一小段小数据描述为能够对当前决策产生影响的小数据集。目前正在进行的几乎所有事情,其数据都可以在 Excel 文件中获取。小数据在决策中也很有用,但并非旨在对业务产生重大影响,而是在短时间内。
简而言之,足够简单以供人类理解的数据,其数量和结构使其易于访问、简洁和可操作,称为小数据。
大数据: 它可以表示为大量结构化和非结构化数据。存储的数据量是巨大的。因此,对于分析师来说,彻底挖掘整个事情以使其对做出正确的业务决策具有相关性和有用性非常重要。
简而言之,传统数据处理技术无法管理的非常庞大和复杂的数据集被称为大数据。
下表是小数据和大数据之间的区别:
特色 | 小数据 | 大数据 |
---|---|---|
技术 | 传统 | 现代 |
收集 | 通常以有组织的方式获得,而不是插入到数据库中 | 大数据收集是通过使用具有队列的管道完成的,如 AWS Kinesis 或 Google Pub / Sub 以平衡高速数据 |
体积 | 数十或数百 GB 范围内的数据量 | 数据大小超过 TB |
分析领域 | 数据集市(分析师) | 集群(数据科学家)、数据集市(分析师) |
质量 | 包含较少的噪音,因为以受控方式收集的数据较少 | 通常,不能保证数据的质量 |
处理 | 它需要面向批处理的处理管道 | 它同时具有批处理和流处理管道 |
数据库 | SQL | NoSQL |
速度 | 有规律且恒定的数据流,数据聚合很慢 | 数据以极高的速度到达,短时间内聚合大量数据 |
结构 | 具有固定模式的表格格式的结构化数据(关系) | 多种数据集,包括表格数据、文本、音频、图像、视频、日志、JSON 等(非关系) |
可扩展性 | 它们通常是垂直扩展的 | 它们主要基于水平扩展架构,从而以更低的成本提供更多的多功能性 |
查询语言 | 仅查询语言 | Python、R、Java、Sequel |
硬件 | 单台服务器就足够 | 需要多台服务器 |
价值 | 商业智能、分析和报告 | 用于模式发现、推荐、预测等的复杂数据挖掘技术。 |
优化 | 数据可以手动优化(人力) | 需要机器学习技术进行数据优化 |
存储 | 企业内部存储、本地服务器等。 | 通常需要云上或外部文件系统中的分布式存储系统 |
人员 | 数据分析师、数据库管理员和数据工程师 | 数据科学家、数据分析师、数据库管理员和数据工程师 |
安全 | 小数据的安全实践包括用户权限、数据加密、散列等。 | 保护大数据系统要复杂得多。最佳安全实践包括数据加密、集群网络隔离、强大的访问控制协议等。 |
命名法 | 数据库、数据仓库、数据集市 | 数据湖 |
基础设施 | 可预测的资源分配,主要是垂直可扩展的硬件。 | 具有水平可扩展硬件的更敏捷的基础架构 |