Python 如何编写混淆矩阵

在本文中，我们将介绍如何使用Python编写混淆矩阵。混淆矩阵是评估分类模型性能的重要工具，它可以帮助我们直观地了解模型在预测中的准确性和错误类型。

什么是混淆矩阵？

混淆矩阵（Confusion Matrix）也被称为误差矩阵（Error Matrix）或分类表（Classification Table），是一种用于评估分类模型性能的表格。混淆矩阵以表格的形式展示了分类模型的预测结果与真实结果之间的差异。

一个典型的二分类混淆矩阵包含了四个重要的指标：真正例（True Positive, TP）、假正例（False Positive, FP）、真反例（True Negative, TN）和假反例（False Negative, FN）。这些指标可以帮助我们判断模型的准确性、精确性、召回率以及F1得分等重要性能指标。

下面是一个示例的二分类混淆矩阵：

              预测正例    预测反例
真实正例    TP        FN
真实反例    FP        TN

如何编写混淆矩阵？

在Python中，我们可以使用scikit-learn库中的函数来生成混淆矩阵。首先，我们需要导入所需的模块和函数：

from sklearn.metrics import confusion_matrix

接下来，我们需要准备模型的预测结果和真实结果的数组。假设我们有一个二分类模型的预测结果 y_pred 和真实结果 y_true，我们可以使用以下代码来生成混淆矩阵：

cm = confusion_matrix(y_true, y_pred)

生成的混淆矩阵 cm 是一个二维数组，可以通过索引来获取其中的值。例如，要获取真正例的数量，可以使用 cm[1, 1]；要获取假反例的数量，可以使用 cm[0, 1]。

示例

让我们通过一个示例来演示如何使用Python编写混淆矩阵。

假设我们有一个二分类模型用于判断电子邮件是否是垃圾邮件。我们有100个样本，在这些样本中，模型预测了70个样本是正常邮件，30个样本是垃圾邮件。真实情况是，在这100个样本中，有60个样本是正常邮件，40个样本是垃圾邮件。

根据以上信息，我们可以编写以下代码来生成混淆矩阵：

from sklearn.metrics import confusion_matrix

y_true = [0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
y_pred = [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]

cm = confusion_matrix(y_true, y_pred)
print(cm)

运行以上代码，将得到以下输出：