大数据是什么,从不同的角度有不同的定义,本文介绍大数据的概念及大数据的特性。
大数据概念
维基百科(Wikipedia)
规模庞大,结构复杂,难以通过现有商业工具和技术在可容忍的时间内获取、管理和处理的数据集。
美国国家标准技术研究院(NIST)
具有规模巨大(Volume)、种类繁多(Variety)、增长速度快(Volocity)和变化频繁(Variability)的特征,且需要一个可扩展体系结构来有效存储、处理和分析的广泛的数据集。
IBM给出了一个“4V特性”的定义
强调了大数据的数量(Volume)、多样性(Variety)、速度(Volocity)和真实性(Veracity)等方面,后来也将数据价值(Value)吸收进来,成为大数据的“5V特性”。
麦肯锡全球研究机构(McKinsey Global Institute)
综合了“现有技术无法处理”和“数据特征”定义,它认为“大数据是指大小超过经典数据库软件工具收集、存储、管理和分析能力的数据集,这一定义是站在经典数据库的处理能力的基础上看待大数据的。
大数据特征
大数据要求数据量大(Volume)
这一点大家没有疑问。数据量小一定不符合大数据的原则。至于数据量多大合适,有一个叫置信度的概念,数据至少要大到让统计的结果具有非常高的置信度
数据种类繁多(Variety )
数据种类繁多、复杂多变是大数据的重要特性。随着传感器种类的增多及智能设备、社交网络等的流行,数据种类也变得更加复杂,其包括结构化数据、半结构化数据和非结构化数据。其中,10%是结构化数据,存储在数据库中;90%是非结构化数据,与人类信息密切相关。
数据处理速度快(Velocity)
新时代人们从信息的被动接受者变成了主动创造者。数据从生成到消耗,时间窗口非常小,可用于生成决策的时间非常短。
数据价值密度低(Value)
数据呈指数增长的同时,隐藏在海量数据的有用信息却没有相应比例增长。恰恰相反,挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏珍贵的信息。例如,商场的监控视频,连续数小时的监控过程中有可能有用的数据仅仅只有几秒钟。