机器学习中的数据介绍

机器学习中的数据介绍,数据分为3种层次:
数据:它可以是任何未经处理的事实、值、文本、声音或图片,没有被解释和分析。数据是所有数据分析、机器学习和人工智能中最重要的部分。没有数据,我们就无法训练任何模型,所有的现代研究和自动化都将付诸东流。大企业正在花费大量的钱来收集尽可能多的特定数据。
例证:为什么Facebook要以190亿美元的高价收购WhatsApp ?
答案很简单,也很符合逻辑——那就是能够访问Facebook可能没有、但WhatsApp将拥有的用户信息。这些用户的信息对Facebook来说至关重要,因为它将促进其服务的改进。

信息:已解释和操作的数据,现在对用户有一些有意义的推断。

知识:推断信息、经验、学习和洞察力的结合。为个人或组织建立意识或概念。

机器学习中的数据介绍

我们如何在机器学习中分割数据?

数据分割为3部分:



  • 训练数据(Training Data):我们用来训练模型的部分数据。这是模型实际看到并从中学习的数据(输入和输出)。
  • 验证数据(Validation Data):用于对模型进行频繁评估的数据部分,与训练数据集相匹配,并改进所涉及的超参数(在模型开始学习前初始设置参数)。这些数据是模型实际训练时的一部分。
  • 测试数据(Testing Data):一旦我们的模型完全经过训练,测试数据就提供了无偏的评估。当我们输入测试数据时,我们的模型将预测一些值(没有看到实际的输出)。预测后,我们将模型与测试数据中的实际输出进行比较,从而对模型进行评估。这就是我们如何评估和查看我们的模型从培训数据中吸取了多少经验,这些数据是在培训时设置的。

机器学习中的数据介绍

考虑一个例子:
有一个购物中心的老板做了一个调查,他有一长串的问题和答案,他问过顾客,这个问题和答案的列表是数据。现在,每当他想要推断出任何东西,而又不能通过成千上万的客户的每一个问题来找到相关的东西,因为这既费时又没有帮助。为了减少这种开销和时间浪费,使工作更容易,根据自身的便利性,通过软件、计算、图形等方式对数据进行操作,这种从操作数据进行的推断就是信息。所以,对于信息来说,数据是必须的。现在,知识在区分拥有相同信息的两个人方面发挥了作用。知识实际上不是一种技术内容,而是与人类的思维过程相联系的。

数据的性质

Data具备以下性质:

  • 体积:数据的规模。随着世界人口和技术的不断增长,每一毫秒都会产生大量的数据。
  • 品种:不同形式的数据-医疗保健,图像,视频,音频剪辑。
  • 速度:数据流和生成的速率。
  • 价值:研究人员可以从中推断出的数据信息的意义。
  • 准确性:我们正在处理的数据的确定性和正确性。

关于数据的一些事实

  • 与2005年相比,到2020年将产生300倍即40泽塔字节(1ZB=10^21字节)的数据。
  • 到2011年,医疗行业的数据将达到1,610亿gb
  • 每天大约有2亿活跃用户发送4亿条tweet
  • 每个月,超过40亿小时的视频流是由用户完成的。
  • 用户每月分享300亿种不同类型的内容。
  • 据报道,大约27%的数据是不准确的,所以三分之一的商业理想主义者或领导者不相信他们所做决策的信息。

上述事实只是现有庞大数据统计的冰山一角。当我们谈到现实世界的场景时,当前和每时每刻生成的数据的大小超出了我们的想象范围。


机器学习教程
什么是机器学习人工智能与机器学习有什么区别机器学习分类神经网络简介基尼杂质监督学习无监督学习什么是Softmax随机森林和决策树如何实现机器学习机器学习所需技能信息增益与熵机器学习中的数据介绍强化学习决策树虹膜数据集的探索性数据分析GrowNet:梯度提升神经网络使用神经网络的手写数字识别如何计算监测数据的百分比如何用机器学习提高用户体验使用MobileNet的图像识别鲸鱼优化算法的实现Python中的局部加权线性回归对数赔率在逻辑回归中的作用同时进行定位和测绘分类变量和连续变量之间的相关性如何阅读机器学习论文如何从数据集中选择重要变量什么是结构化和非结构化数据线性回归的假设--同方差性机器学习中的超参数调控机器学习中的最大似然机器学习 模型验证机器学习 检测给定数据集中异常情况的方法机器学习 哪种评价指标最适合于线性回归机器学习 缺失数据的处理是如何使选择偏倚恶化的机器学习 如何评估一个好的逻辑模型机器学习 在传输和加载过程中可能损害数据的风险机器学习 时间序列算法在数据科学中的作用机器人技术和信息处理中的顺序预测问题机器学习 什么时候使用高斯混合模型机器学习 为什么时间序列在分析前必须是静止的
分类算法
高斯朴素贝叶斯(Gaussian Naive Bayes)朴素贝叶斯支持向量机 (SVM)支持向量机 (SVM)(二)-Kernel SVM线性支持向量分类器(SVC)
回归分析
多项式回归分位数回归森林神经网络回归
机器学习 问答
人工智能 和 认知计算 区别随机森林和AdaBoost的区别NLP 、NLU 和 NLG 的区别ANN, CNN和RNN的区别普通处理器和AI处理器的区别人工智能与人类智能的区别大数据与机器学习的区别汇编语言和机器语言的区别计算机科学和数据科学的区别数据科学和商业智能的区别数据科学和数据挖掘的区别数据科学和机器学习的区别数据科学和软件工程的区别机器学习和深度学习的区别机器学习分类和回归的区别人工智能和商业智能的区别人工智能和自动化的区别人工智能、机器学习和深度学习的区别计算机科学家和数据科学家的区别数据挖掘和 OLAP 的区别模型参数与超参数的区别空间和时间数据挖掘的区别人工智能和人类的情感识别的区别人工智能与软计算的区别人工智能与专家系统的区别分类与聚类的区别人工智能中知情搜索与非知情搜索的区别商业智能和预测性分析的区别高级分析和商业智能的区别BigDL和Caffe的区别数据科学家和软件工程师的区别描述性统计和推断统计的区别人类专家和专家系统的区别PyTorch和TensorFlow的区别机器学习和预测分析的区别机器学习和统计学的区别机器学习和预测模型的区别lookker和Tableau的区别ANN和BNN的区别纳米技术和人工智能的区别归纳性学习和演绎性学习之间的区别L1和L2正则化之间的区别人工智能和人类智能的区别生成模型与判别模型的区别神经网络和逻辑回归的区别