机器学习中的数据介绍|极客教程

机器学习中的数据介绍，数据分为3种层次：
数据:它可以是任何未经处理的事实、值、文本、声音或图片，没有被解释和分析。数据是所有数据分析、机器学习和人工智能中最重要的部分。没有数据，我们就无法训练任何模型，所有的现代研究和自动化都将付诸东流。大企业正在花费大量的钱来收集尽可能多的特定数据。
例证:为什么Facebook要以190亿美元的高价收购WhatsApp ?
答案很简单，也很符合逻辑——那就是能够访问Facebook可能没有、但WhatsApp将拥有的用户信息。这些用户的信息对Facebook来说至关重要，因为它将促进其服务的改进。

信息:已解释和操作的数据，现在对用户有一些有意义的推断。

知识:推断信息、经验、学习和洞察力的结合。为个人或组织建立意识或概念。

机器学习中的数据介绍

我们如何在机器学习中分割数据?

数据分割为3部分：

训练数据(Training Data):我们用来训练模型的部分数据。这是模型实际看到并从中学习的数据(输入和输出)。
验证数据(Validation Data):用于对模型进行频繁评估的数据部分，与训练数据集相匹配，并改进所涉及的超参数(在模型开始学习前初始设置参数)。这些数据是模型实际训练时的一部分。
测试数据(Testing Data):一旦我们的模型完全经过训练，测试数据就提供了无偏的评估。当我们输入测试数据时，我们的模型将预测一些值(没有看到实际的输出)。预测后，我们将模型与测试数据中的实际输出进行比较，从而对模型进行评估。这就是我们如何评估和查看我们的模型从培训数据中吸取了多少经验，这些数据是在培训时设置的。

机器学习中的数据介绍

考虑一个例子:
有一个购物中心的老板做了一个调查，他有一长串的问题和答案，他问过顾客，这个问题和答案的列表是数据。现在，每当他想要推断出任何东西，而又不能通过成千上万的客户的每一个问题来找到相关的东西，因为这既费时又没有帮助。为了减少这种开销和时间浪费，使工作更容易，根据自身的便利性，通过软件、计算、图形等方式对数据进行操作，这种从操作数据进行的推断就是信息。所以，对于信息来说，数据是必须的。现在，知识在区分拥有相同信息的两个人方面发挥了作用。知识实际上不是一种技术内容，而是与人类的思维过程相联系的。