数据挖掘与统计的区别
数据挖掘: 数据挖掘是一种分析大量数据以发现关系、设计和洞察力的方法。这些设计,与 Witten 和 Eibe 一致,必须“有意义,因为它们带来了一些优势,而且往往不是财务优势。”数据挖掘中的数据通常是定量的,特别是当我们考虑到社交媒体在很长一段时间内传递的数据(即大数据)呈指数级发展时。
统计学: 统计学是收集、组织、总结和分析数据以得出结论或回答问题的科学。在扩展中,测量是围绕在任何结论中给出一定程度的确定性。收集和分析大量数字信息的实践或科学,特别是为了从代表性测试中收集完整的范围。
下面是数据挖掘和统计之间的差异表:
数据挖掘 | 统计学 |
---|---|
使用的数据是数字或非数字。 | 使用的数据是数字。 |
归纳过程(根据数据生成现代假设) | 演绎过程(不包括做出任何预测) |
数据清洗是耗尽数据挖掘。 | 干净的数据用于应用统计策略。 |
数据挖掘调查和收集数据,构建展示以区分模式并提出理论。 | 统计学给出了利用统计进行测试的推测。 |
适用于扩展数据集 | 适用于较小的数据集 |
需要较少的客户交互来批准模型,因此易于自动化。 | 需要客户交互来批准显示,自动化很麻烦。 |
这是一种从数据中学习而不使用任何编程规则的计算。 | 数学条件形式内数据关系的形式化 |
数据挖掘所需的技能是分类、聚类、神经网络、关联、估计、基于序列的分析 | 统计所需的技能是描述性统计、推论统计 |
应用是金融数据分析、零售业、电信行业 | 应用是人口学、精算科学生物统计学、质量控制 |