ROC曲线的概念与应用|极客教程

ROC曲线的概念与应用

1. 什么是ROC曲线？

ROC（Receiver Operating Characteristic）曲线是一种常用于评价二分类模型的性能的方法。它展示了在不同阈值下，模型的真正例率（True Positive Rate, TPR）与假正例率（False Positive Rate, FPR）之间的关系。

在理解ROC曲线之前，我们先了解下TPR和FPR的定义。TPR也被称为灵敏度（Sensitivity）或真阳性率（True Positive Rate），它表示分类器判定正例的能力。TPR的计算公式为：

TPR = TP / (TP + FN)

其中，TP表示真正例（分类器判定为正例的样本中实际为正例的样本数），FN表示假反例（分类器判定为负例的样本中实际为正例的样本数）。

FPR表示假阳性率（False Positive Rate），它是指分类错误地将反例错判为正例的比率。FPR的计算公式为：

FPR = FP / (FP + TN)

其中，FP表示假正例（分类器判定为正例的样本中实际为负例的样本数），TN表示真反例（分类器判定为负例的样本中实际为负例的样本数）。

ROC曲线是以FPR为横轴，TPR为纵轴绘制的，代表了模型在不同阈值下的分类能力。当模型的ROC曲线越靠近左上角，即越接近红线，说明模型的性能越好。

2. 如何绘制ROC曲线？

在Python中，我们可以使用scikit-learn库来绘制ROC曲线。首先需要确定模型的预测概率值，然后使用sklearn.metrics模块下的roc_curve函数计算出不同阈值下的FPR和TPR。

下面是一个使用逻辑回归模型绘制ROC曲线的示例代码：

from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve, auc
import matplotlib.pyplot as plt

# 加载鸢尾花数据集
iris = load_iris()
X, y = iris.data[:100], iris.target[:100]

# 使用逻辑回归模型进行训练和预测
model = LogisticRegression()
model.fit(X, y)
probas = model.predict_proba(X)[:, 1]

# 计算ROC曲线的FPR和TPR
fpr, tpr, thresholds = roc_curve(y, probas)
roc_auc = auc(fpr, tpr)

# 绘制ROC曲线
plt.plot(fpr, tpr, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], 'k--')  # 绘制红线
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver Operating Characteristic')
plt.legend(loc="lower right")
plt.show()