机器学习中的数据介绍

机器学习中的数据介绍,数据分为3种层次:
数据:它可以是任何未经处理的事实、值、文本、声音或图片,没有被解释和分析。数据是所有数据分析、机器学习和人工智能中最重要的部分。没有数据,我们就无法训练任何模型,所有的现代研究和自动化都将付诸东流。大企业正在花费大量的钱来收集尽可能多的特定数据。
例证:为什么Facebook要以190亿美元的高价收购WhatsApp ?
答案很简单,也很符合逻辑——那就是能够访问Facebook可能没有、但WhatsApp将拥有的用户信息。这些用户的信息对Facebook来说至关重要,因为它将促进其服务的改进。

信息:已解释和操作的数据,现在对用户有一些有意义的推断。

知识:推断信息、经验、学习和洞察力的结合。为个人或组织建立意识或概念。

机器学习中的数据介绍

我们如何在机器学习中分割数据?

数据分割为3部分:

  • 训练数据(Training Data):我们用来训练模型的部分数据。这是模型实际看到并从中学习的数据(输入和输出)。
  • 验证数据(Validation Data):用于对模型进行频繁评估的数据部分,与训练数据集相匹配,并改进所涉及的超参数(在模型开始学习前初始设置参数)。这些数据是模型实际训练时的一部分。
  • 测试数据(Testing Data):一旦我们的模型完全经过训练,测试数据就提供了无偏的评估。当我们输入测试数据时,我们的模型将预测一些值(没有看到实际的输出)。预测后,我们将模型与测试数据中的实际输出进行比较,从而对模型进行评估。这就是我们如何评估和查看我们的模型从培训数据中吸取了多少经验,这些数据是在培训时设置的。

机器学习中的数据介绍

考虑一个例子:
有一个购物中心的老板做了一个调查,他有一长串的问题和答案,他问过顾客,这个问题和答案的列表是数据。现在,每当他想要推断出任何东西,而又不能通过成千上万的客户的每一个问题来找到相关的东西,因为这既费时又没有帮助。为了减少这种开销和时间浪费,使工作更容易,根据自身的便利性,通过软件、计算、图形等方式对数据进行操作,这种从操作数据进行的推断就是信息。所以,对于信息来说,数据是必须的。现在,知识在区分拥有相同信息的两个人方面发挥了作用。知识实际上不是一种技术内容,而是与人类的思维过程相联系的。

数据的性质

Data具备以下性质:

  • 体积:数据的规模。随着世界人口和技术的不断增长,每一毫秒都会产生大量的数据。
  • 品种:不同形式的数据-医疗保健,图像,视频,音频剪辑。
  • 速度:数据流和生成的速率。
  • 价值:研究人员可以从中推断出的数据信息的意义。
  • 准确性:我们正在处理的数据的确定性和正确性。

关于数据的一些事实

  • 与2005年相比,到2020年将产生300倍即40泽塔字节(1ZB=10^21字节)的数据。
  • 到2011年,医疗行业的数据将达到1,610亿gb
  • 每天大约有2亿活跃用户发送4亿条tweet
  • 每个月,超过40亿小时的视频流是由用户完成的。
  • 用户每月分享300亿种不同类型的内容。
  • 据报道,大约27%的数据是不准确的,所以三分之一的商业理想主义者或领导者不相信他们所做决策的信息。

上述事实只是现有庞大数据统计的冰山一角。当我们谈到现实世界的场景时,当前和每时每刻生成的数据的大小超出了我们的想象范围。

赞(2)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址