Python混淆矩阵|极客教程

Python混淆矩阵

在机器学习领域中，混淆矩阵是一种常用的评估分类模型性能的工具。在这篇文章中，我们将详细介绍Python中如何使用混淆矩阵来评估模型性能。

什么是混淆矩阵？

混淆矩阵是一种用于衡量分类模型在测试数据集上表现的矩阵。它展示了模型预测结果与实际标签之间的关系，帮助我们了解模型的准确性、召回率、精确度和F1分数等指标。

一个典型的二分类混淆矩阵如下所示：

	预测为正例	预测为反例
实际为正例	TP（真正例）	FN（假反例）
实际为反例	FP（假正例）	TN（真反例）

其中，TP表示真正例（模型正确预测为正例的样本数），FN表示假反例（模型错误预测为反例的样本数），FP表示假正例（模型错误预测为正例的样本数），TN表示真反例（模型正确预测为反例的样本数）。

如何计算混淆矩阵？

在Python中，我们可以使用sklearn.metrics模块中的confusion_matrix方法来计算混淆矩阵。下面是一个示例代码：

from sklearn.metrics import confusion_matrix

# 模拟真实标签和预测结果
y_true = [1, 0, 1, 1, 0, 1]
y_pred = [1, 1, 1, 0, 1, 0]

# 计算混淆矩阵
cm = confusion_matrix(y_true, y_pred)
print(cm)

运行以上代码，将会输出混淆矩阵的内容：

[[1 2]
 [1 2]]

如何解读混淆矩阵？

通过混淆矩阵，我们可以计算出各种分类指标，比如准确性、召回率、精确度和F1分数等。这些指标可以帮助我们更好地评估模型的性能。

准确性（Accuracy）：(TP + TN) / (TP + TN + FP + FN)，表示模型预测正确的样本数占总样本数的比例。
召回率（Recall）：TP / (TP + FN)，表示实际为正例的样本中，模型正确预测为正例的比例。
精确度（Precision）：TP / (TP + FP)，表示模型预测为正例的样本中，实际为正例的比例。
F1分数：2 * Precision * Recall / (Precision + Recall)，综合考虑了精确度和召回率的指标。

除了这些常见的指标，我们还可以根据混淆矩阵计算出许多其他指标，比如假正例率、假反例率等。

案例分析

接下来，让我们通过一个简单的案例来展示如何使用混淆矩阵评估模型性能。

假设我们有一个二分类任务，数据集包含100个样本，我们使用一个简单的逻辑回归模型进行预测。

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, confusion_matrix

# 模拟数据集
X = [[1, 2], [2, 3], [3, 4], [4, 5], [5, 6], [6, 7], [7, 8], [8, 9], [9, 10], [10, 11]]
y = [0, 0, 1, 1, 0, 1, 1, 0, 1, 0]

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型
model = LogisticRegression()
model.fit(X_train, y_train)

# 模型预测
y_pred = model.predict(X_test)

# 计算准确性
acc = accuracy_score(y_test, y_pred)
print("准确性：", acc)

# 计算混淆矩阵
cm = confusion_matrix(y_test, y_pred)
print("混淆矩阵：\n", cm)