结构化、半结构化和非结构化数据的区别
大数据包括海量、高速和可扩展的各种数据。它们是三种类型:结构化数据、半结构化数据和非结构化数据。
1、结构化数据
结构化数据是其元素可寻址以进行有效分析的数据。它已被组织到一个格式化的存储库中,该存储库通常是一个数据库。它涉及可以存储在具有行和列的表中的数据库 SQL 中的所有数据。它们具有关系键,可以轻松映射到预先设计的字段。今天,这些数据在开发中处理得最多,也是管理信息的最简单方法。示例:关系数据。
2、半结构化数据
半结构化数据是不存在于关系数据库中但具有一些使其更易于分析的组织属性的信息。对于某些进程,可以将它们存储在关系数据库中(对于某种半结构化数据可能非常困难),但半结构化的存在是为了缓解空间。示例:XML 数据。
3、非结构化数据
非结构化数据是没有按预定义方式组织或没有预定义数据模型的数据,因此不太适合主流关系型数据库。因此,对于非结构化数据,存在用于存储和管理的替代平台,它在 IT 系统中越来越普遍,并被组织用于各种商业智能和分析应用程序。示例:Word、PDF、文本、媒体日志。
结构化、半结构化和非结构化数据的区别:
属性 | 结构化数据 | 半结构化数据 | 非结构化数据 |
---|---|---|---|
技术 | 它基于关系数据库表 | 它基于 XML/RDF(资源描述框架)。 | 它基于字符和二进制数据 |
事务管理 | 成熟的事务和各种并发技术 | 事务改编自 DBMS 不成熟 | 没有事务管理,没有并发 |
版本管理 | 对元组、行、表进行版本控制 | 可以对元组或图形进行版本控制 | 整体版本化 |
灵活性 | 它依赖于模式,灵活性较低 | 它比结构化数据更灵活,但不如非结构化数据灵活 | 它更灵活,并且没有模式 |
可扩展性 | 扩展数据库模式非常困难 | 它的扩展比结构化数据更简单 | 它更具可扩展性。 |
稳健性 | 非常稳健 | 新技术,不是很普及 | — |
查询性能 | 结构化查询允许复杂的连接 | 可以通过匿名节点进行查询 | 只能进行文本查询 |