Python人工智能 – 监督学习:分类
在这一章中,我们将重点讨论实现监督学习–分类。
分类技术或模型试图从观察值中得到一些结论。在分类问题中,我们有分类的输出,如 “黑 “或 “白”,或 “教 “和 “非教”。在建立分类模型时,我们需要有包含数据点和相应标签的训练数据集。例如,如果我们想检查图像是否是一辆汽车。为了检查这一点,我们将建立一个训练数据集,其中包含与 “汽车 “和 “没有汽车 “相关的两个类别。然后我们需要使用训练样本来训练模型。分类模型主要用于人脸识别、垃圾邮件识别等。
在Python中建立分类器的步骤
为了在Python中建立一个分类器,我们将使用Python 3和Scikit-learn,这是一个机器学习的工具。按照以下步骤在Python中建立一个分类器 —
第1步–导入Scikit-learn
这将是在Python中建立分类器的第1步。在这一步,我们将安装一个名为Scikit-learn的Python包,它是Python中最好的机器学习模块之一。下面的命令将帮助我们导入这个包
第2步–导入Scikit-learn的数据集
在这一步,我们可以开始为我们的机器学习模型处理数据集。这里,我们将使用乳腺癌威斯康星州诊断数据库。 该数据集包括关于乳腺癌肿瘤的各种信息,以及 恶性 或 良性的 分类标签 。 该数据集有569个实例,或数据,关于569个肿瘤,包括30个属性,或特征的信息,如肿瘤的半径、纹理、平滑度和面积。在以下命令的帮助下,我们可以导入Scikit-learn的乳腺癌数据集—-。
现在,以下命令将加载数据集。
Following is a list of important dictionary keys −
- 分类标签名称(target_names)
- 实际标签(target)
- 属性/特征名称(feature_names)
- 属性(data)
现在,在以下命令的帮助下,我们可以为每个重要的信息集创建新的变量,并分配数据。换句话说,我们可以用以下命令来组织数据 −
现在,为了更清楚地说明问题,我们可以在以下命令的帮助下打印类的标签、第一个数据实例的标签、我们的特征名称和特征值
上述命令将打印出分别为恶性和良性的类别名称。它显示为下面的输出 –
现在,下面的命令将显示它们被映射为二进制值0和1。这里0代表恶性癌症,1代表良性癌症。You will receive the following output −
下面给出的两条命令将产生特征名称和特征值。
从上面的输出中,我们可以看到,第一个数据实例是一个恶性肿瘤,其半径为1.7990000e+01。
第3步–将数据整理成集
在这一步,我们将把数据分成两部分,即训练集和测试集。将数据分成这几组是非常重要的,因为我们必须在未见过的数据上测试我们的模型。为了将数据分成几组,sklearn有一个叫做 train_test_split() 的函数。在以下命令的帮助下,我们可以将数据分割成这些集合 —
上面的命令将从sklearn导入 train_test_split 函数,下面的命令将把数据分成训练和测试数据。在下面的例子中,我们使用40%的数据进行测试,其余的数据将用于训练模型。
第4步 – 建立模型
在这一步,我们将建立我们的模型。我们将使用Native Bayes算法来建立模型。以下命令可以用来建立模型
上面的命令将导入GaussianNB模块。现在,下面的命令将帮助你初始化模型。
我们将通过使用gnb.fit()对数据进行拟合来训练该模型。
第5步 – 评估模型及其准确性
在这一步,我们将通过对测试数据进行预测来评估该模型。然后我们将找出其准确性。为了进行预测,我们将使用 predict() 函数。下面的命令将帮助你做到这一点
上述一系列的0和1是肿瘤类别的预测值,即恶性和良性。
现在,通过比较两个数组,即 test_labels 和 preds ,我们可以找出我们模型的准确性。我们将使用 accuracy_score() 函数来确定准确性。请考虑以下命令 –
结果显示,NativeBayes分类器的准确率为95.17%。
这样,在上述步骤的帮助下,我们可以在Python中建立我们的分类器。
在Python中建立分类器
在本节中,我们将学习如何在Python中建立一个分类器。
Native Bayes分类器
Native Bayes是一种分类技术,用于使用Bayes定理建立分类器。它的假设是,预测因子是独立的。简单地说,它假设一个类别中某个特定特征的存在与任何其他特征的存在无关。为了建立Native Bayes分类器,我们需要使用名为scikit learn的python库。scikit learn包中有三种类型的Native Bayes模型,分别是 高斯模型、多叉模型和伯努利 模型。
要建立一个Native Bayes机器学习分类器模型,我们需要以下条件
数据集
我们将使用名为乳腺癌威斯康星州诊断数据库 的数据集。 该数据集包括关于乳腺癌肿瘤的各种信息,以及 恶性 或 良性 分类标签 。 该数据集有569个实例或数据,涉及569个肿瘤,包括30个属性或特征的信息,如肿瘤的半径、纹理、平滑度和面积。我们可以从sklearn包中导入这个数据集。
Native贝叶斯模型
为了建立Native Bayes分类器,我们需要一个Native Bayes模型。如前所述,scikit learn包中有三种类型的Native Bayes模型,分别是 高斯模型、多项式 模型和 伯努利 模型。在下面的例子中,我们将使用高斯Native Bayes模型。
通过使用上述方法,我们将建立一个Native Bayes机器学习模型,使用肿瘤信息来预测肿瘤是恶性还是良性。
首先,我们需要安装sklearn模块。它可以在以下命令的帮助下完成 —
现在,我们需要导入名为乳腺癌威斯康星州诊断数据库的数据集。
现在,以下命令将加载数据集。
这些数据可以整理如下-
现在,为了更清楚地说明问题,我们可以在以下命令的帮助下打印类的标签、第一个数据实例的标签、我们的特征名称和特征值—。
上述命令将打印出分别为恶性和良性的类别名称。它显示为下面的输出 –
现在,下面的命令将显示它们被映射为二进制值0和1。这里0代表恶性癌症,1代表良性癌症。它显示为下面的输出 –
以下两条命令将产生特征名称和特征值。
从上面的输出中,我们可以看到,第一个数据实例是一个恶性肿瘤,其主要半径为1.7990000e+01。
为了在未见过的数据上测试我们的模型,我们需要将我们的数据分成训练和测试数据。这可以在以下代码的帮助下完成 —
上面的命令将从sklearn导入 train_test_split 函数,下面的命令将把数据分成训练和测试数据。在下面的例子中,我们使用40%的数据进行测试,剩下的数据将用于训练模型。
Now, we are building the model with the following commands −
上述命令将导入 GaussianNB 模块。现在,通过下面的命令,我们需要初始化模型。
我们将通过使用 gnb.fit( )对数据进行拟合来训练该模型 。
现在,通过对测试数据进行预测来评估该模型,可以按以下方式进行
上述一系列的0和1是肿瘤类别的预测值,即恶性和良性。
现在,通过比较两个数组即 test_labels 和 preds ,我们可以找出我们模型的准确性。我们将使用 accuracy_score() 函数来确定准确性。考虑以下命令 –
结果显示,NativeBayes分类器的准确率为95.17%。
那是基于Native Bayse高斯模型的机器学习分类器。
支持向量机(SVM)
基本上,支持向量机(SVM)是一种监督下的机器学习算法,可用于回归和分类。支持向量机的主要概念是将每个数据项绘制成n维空间中的一个点,每个特征的值就是一个特定坐标的值。这里的n是我们将拥有的特征。以下是一个简单的图形表示,以理解SVM的概念 —
在上图中,我们有两个特征。因此,我们首先需要在二维空间中绘制这两个变量,每个点有两个坐标,称为支持向量。这条线将数据分割成两个不同的分类组。这条线将是分类器。
在这里,我们将通过使用scikit-learn和虹膜数据集建立一个SVM分类器。Scikitlearn库有 sklearn.svm 模块,提供sklearn.svm.svc用于分类。 基于4个特征预测虹膜植物类别的SVM分类器如下所示。
数据集
我们将使用虹膜数据集,它包含3个类,每个类有50个实例,每个类是指虹膜植物的一种类型。每个实例都有四个特征,即萼片长度、萼片宽度、花瓣长度和花瓣宽度。基于4个特征的SVM分类器预测鸢尾花植物的类别,如下所示。
核心
它是SVM使用的一种技术。基本上,这些是将低维输入空间转化为高维空间的函数。它将不可分离的问题转换为可分离的问题。核函数可以是线性、多项式、Rbf和sigmoid中的任何一种。在这个例子中,我们将使用线性核。
现在让我们导入以下软件包
现在,加载输入数据 –
我们正在采取前两个特征–
我们将用原始数据绘制支持向量机的边界。我们正在创建一个网格来绘制。
我们需要给出正则化参数的值。
我们需要创建SVM分类器对象。
逻辑回归
基本上,逻辑回归模型是监督分类算法家族的成员之一。逻辑回归通过使用逻辑函数估计概率来测量因变量和自变量之间的关系。
在这里,如果我们谈论因变量和自变量,那么因变量就是我们要预测的目标类变量,另一方面,自变量是我们要用来预测目标类的特征。
在逻辑回归中,估计概率意味着要预测事件发生的可能性。例如,店主想预测进入店内的顾客是否会购买游戏机(例如)。顾客有很多特征–性别、年龄等,店主可以通过观察这些特征来预测事件发生的可能性,即购买游戏机与否。Logistic函数是用于建立各种参数的sigmoid曲线。
前提条件
在使用逻辑回归建立分类器之前,我们需要在系统中安装Tkinter包。它可以从https://docs.python.org/2/library/tkinter.html .
现在,在下面给出的代码的帮助下,我们可以使用逻辑回归创建一个分类器 —
首先,我们将导入一些包–
现在,我们需要定义样本数据,可以按以下方式进行
接下来,我们需要创建逻辑回归分类器,可以这样做—
最后但并非最不重要的是,我们需要训练这个分类器—-。
现在,我们如何将输出可视化?可以通过创建一个名为Logistic_visualize()的函数来实现—-。
在上面一行中,我们定义了用于网格的最小和最大数值X和Y。此外,我们还将定义绘制网格的步长。
让我们定义X和Y值的网状网格如下—
在以下代码的帮助下,我们可以在网格上运行分类器-
下面这行代码将指定绘图的边界
现在,运行代码后,我们将得到以下输出,逻辑回归分类器-
决策树分类器
决策树基本上是一个二进制树形流程图,其中每个节点根据一些特征变量分割一组观察结果。
在这里,我们要建立一个决策树分类器来预测男性或女性。我们将采取一个非常小的数据集,有19个样本。这些样本包括两个特征,即身高和头发长度。
前提条件
为了建立以下分类器,我们需要安装 pydotplus 和 graphviz。 基本上,graphviz是一个使用dot文件绘制图形的工具, pydotplus 是Graphviz的Dot语言的一个模块。它可以用软件包管理器或pip来安装。
现在,我们可以在以下Python代码的帮助下建立决策树分类器 —
首先,让我们导入一些重要的库,如下所示
现在,我们需要提供数据集,如下所示
在提供数据集后,我们需要拟合模型,可以按以下方式进行
可以在以下Python代码的帮助下进行预测 —
我们可以在以下Python代码的帮助下实现决策树的可视化 —
它将给出上述代码的预测值为 [‘Woman’] ,并创建以下决策树 –
我们可以改变预测中的特征值来测试它。
随机森林分类器
我们知道,集合方法是将机器学习模型组合成一个更强大的机器学习模型的方法。随机森林,一个决策树的集合,就是其中之一。它比单一的决策树更好,因为在保留预测能力的同时,它可以通过对结果进行平均来减少过度拟合。这里,我们要在scikit learn癌症数据集上实现随机森林模型。
导入必要的软件包–
现在,我们需要提供数据集,可以按以下方式进行
在提供数据集后,我们需要拟合模型,可以按以下方式进行
现在,获得训练和测试子集的准确性:如果我们增加估计器的数量,那么测试子集的准确性也会增加。
输出
现在,与决策树一样,随机森林也有 feature_importance 模块,它将提供比决策树更好的特征权重视图。它可以被绘制和可视化,如下所示
分类器的性能
实现机器学习算法后,我们需要找出模型的有效性。衡量有效性的标准可能是基于数据集和指标的。为了评估不同的机器学习算法,我们可以使用不同的性能指标。例如,假设一个分类器被用来区分不同物体的图像,我们可以使用分类性能指标,如平均准确率、AUC等。从某种意义上说,我们选择什么样的指标来评估我们的机器学习模型是非常重要的,因为指标的选择影响着机器学习算法的性能如何被衡量和比较。以下是一些指标–
混淆矩阵
基本上,它用于分类问题,其中输出可以是两个或多个类型的类别。它是衡量一个分类器性能的最简单的方法。混淆矩阵基本上是一个有两个维度的表格,即 “实际 “和 “预测”。这两个维度都有 “真阳性(TP)”、”真阴性(TN)”、”假阳性(FP)”和 “假阴性(FN)”。
在上面的混淆矩阵中,1代表正类,0代表负类。
以下是与混淆矩阵相关的术语 –
- 真阳性 – TP是指数据点的实际类别为1,而预测值也为1的情况。
-
真阴性 – TNs是指数据点的实际类别为0,而预测值也为0的情况。
-
假阳性 – FP是指数据点的实际类别为0而预测值也为1的情况。
-
假阴性 – FNs是指数据点的实际类别为1,而预测值也为0的情况。
准确度
混淆矩阵本身不是一个性能指标,但几乎所有的性能矩阵都是基于混淆矩阵的。其中之一就是准确性。在分类问题中,它可以被定义为模型在所有类型的预测中所做出的正确预测的数量。准确率的计算公式如下
精度
它主要用于文档检索。它可以被定义为返回的文件中有多少是正确的。以下是计算精度的公式—-。
召回率或敏感度
它可以被定义为模型返回多少个阳性结果。以下是计算模型的召回率/灵敏度的公式
特异性
它可以被定义为模型返回多少个阴性结果。它与召回率正好相反。以下是计算模型特异性的公式:
类别不平衡问题
类不平衡是指属于一个类的观察值的数量明显低于属于其他类的观察值的情况。例如,这个问题在我们需要识别罕见疾病、银行中的欺诈性交易等情况下很突出。
不平衡类的例子
让我们考虑一个欺诈检测数据集的例子来理解不平衡类的概念 —
解决方案
平衡班级’Äô’ 是解决不平衡班级的一个办法。平衡班级的主要目的是增加少数班级的频率或减少多数班级的频率。以下是解决不平衡类问题的方法
重新取样
重新取样是一系列用于重建样本数据集的方法–包括训练集和测试集。再抽样是为了提高模型的准确性。以下是一些再抽样技术
- 随机取样不足– 该技术旨在通过随机消除多数类的例子来平衡类别分布。这样做直到多数人和少数人类别的实例被平衡掉。
在这种情况下,我们从非欺诈性实例中不加替换地抽取10%的样本,然后将其与欺诈性实例结合起来 —
随机抽样不足后的非欺诈性观察值=4950的10% = 495
与欺诈性观察相结合后的总观察值=50+495=545
因此,现在,新的数据集在欠抽之后的事件率=9%。
这种技术的主要优点是,它可以减少运行时间并改善存储。但另一方面,在减少训练数据样本数量的同时,它也会丢弃有用的信息。
- 随机过度取样– 这种技术旨在通过复制少数类的实例来增加其数量,从而平衡类的分布。
如果我们将50个欺诈性观测值复制30次,那么在复制了少数阶层的观测值之后,欺诈性观测值将是1500个。然后在新的数据中,经过超量取样的总观察值将是4950+1500=6450。因此,新数据集的事件率将是1500/6450=23%。
这种方法的主要优点是不会有有用信息的损失。但另一方面,它也增加了过度拟合的机会,因为它复制了少数类事件。
集合技术
这种方法基本上是用来修改现有的分类算法,使其适用于不平衡的数据集。在这种方法中,我们从原始数据中构建几个两阶段的分类器,然后汇总它们的预测结果。随机森林分类器是基于集合的分类器的一个例子。