监督学习,是训练机器学习的重要模式之一。监督学习是指:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。
监督学习是从标记的训练数据来推断一个功能的机器学习任务。训练数据包括一套训练示例。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。一个最佳的方案将允许该算法来正确地决定那些看不见的实例的类标签。
有几种用于监督学习的算法。下面是一些被广泛使用的监督学习算法:
- k-最近邻居
- 决策树
- 朴素贝叶斯
- 逻辑回归
- 支持向量机
随着本章的继续,让我们详细讨论每种算法。
k近邻
k近邻,简称kNN,是一种统计技术,可以用来解决分类和回归问题。让我们讨论使用kNN对未知对象进行分类的情况。考虑如下图所示的对象分布:
图中显示了三种类型的对象,分别用红色、蓝色和绿色标记。当您在上面的数据集上运行kNN分类器时,每种类型对象的边界将被标记为如下所示:
现在,考虑一个新的未知对象,您想将其分类为红色、绿色或蓝色。如下图所示。
正如您在视觉上看到的,未知数据点属于一类蓝色对象。从数学上讲,这可以通过测量这个未知点与数据集中其他点之间的距离来得出结论。当你这样做时,你会知道它的大多数邻居都是蓝色的。到红色和绿色物体的平均距离肯定会大于到蓝色物体的平均距离。因此,这个未知对象可以归为blue类。
kNN算法也可用于回归问题。kNN算法在大多数ML库中都可以随时使用。
决策树
流程图格式的简单决策树如下所示:
您将编写一个代码来根据这个流程图对输入数据进行分类。流程图是不言自明和琐碎的。在这个场景中,您试图对收到的电子邮件进行分类,以决定何时阅读它。
实际上,决策树可能很大也很复杂。有几种算法可以创建和遍历这些树。作为一名机器学习爱好者,您需要理解并掌握这些创建和遍历决策树的技术。
朴素贝叶斯
朴素贝叶斯用于创建分类器。假设你想从水果篮子里把不同种类的水果分类。您可以使用诸如水果的颜色、大小和形状等特性,例如,任何颜色为红色、形状为圆形、直径约为10厘米的水果都可以认为是苹果。因此,要训练模型,您将使用这些特性并测试给定特性匹配所需约束的概率。然后将不同特征的概率组合起来,得到给定水果是苹果的概率。朴素贝叶斯一般需要少量的训练数据进行分类。
逻辑回归
请看下图。它显示了数据点在XY平面上的分布。
从图中,我们可以直观地看到红点和绿点的分离。你可以画一条边界线把这些点分开。现在,要对一个新的数据点进行分类,只需要确定这个点位于这条线的哪一边。
支持向量机
看看下面的数据分布。在这里,这三类数据不能线性分离。边界曲线是非线性的。在这种情况下,找到曲线方程就成了一项复杂的工作。
在这种情况下,支持向量机(SVM)可以方便地确定分离边界。