大数据是什么

大数据是什么,从不同的角度有不同的定义,本文介绍大数据的概念及大数据的特性。

大数据是什么

大数据概念

维基百科(Wikipedia)

规模庞大,结构复杂,难以通过现有商业工具和技术在可容忍的时间内获取、管理和处理的数据集。

美国国家标准技术研究院(NIST)

具有规模巨大(Volume)、种类繁多(Variety)、增长速度快(Volocity)和变化频繁(Variability)的特征,且需要一个可扩展体系结构来有效存储、处理和分析的广泛的数据集。

IBM给出了一个“4V特性”的定义

强调了大数据的数量(Volume)、多样性(Variety)、速度(Volocity)和真实性(Veracity)等方面,后来也将数据价值(Value)吸收进来,成为大数据的“5V特性”。

麦肯锡全球研究机构(McKinsey Global Institute)

综合了“现有技术无法处理”和“数据特征”定义,它认为“大数据是指大小超过经典数据库软件工具收集、存储、管理和分析能力的数据集,这一定义是站在经典数据库的处理能力的基础上看待大数据的。

大数据特征

大数据特征

大数据要求数据量大(Volume)

这一点大家没有疑问。数据量小一定不符合大数据的原则。至于数据量多大合适,有一个叫置信度的概念,数据至少要大到让统计的结果具有非常高的置信度

数据种类繁多(Variety )

数据种类繁多、复杂多变是大数据的重要特性。随着传感器种类的增多及智能设备、社交网络等的流行,数据种类也变得更加复杂,其包括结构化数据、半结构化数据和非结构化数据。其中,10%是结构化数据,存储在数据库中;90%是非结构化数据,与人类信息密切相关。

数据处理速度快(Velocity)

新时代人们从信息的被动接受者变成了主动创造者。数据从生成到消耗,时间窗口非常小,可用于生成决策的时间非常短。

数据价值密度低(Value)

数据呈指数增长的同时,隐藏在海量数据的有用信息却没有相应比例增长。恰恰相反,挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏珍贵的信息。例如,商场的监控视频,连续数小时的监控过程中有可能有用的数据仅仅只有几秒钟。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程