机器学习 哪种评价指标最适合于线性回归
简介
在机器学习中,线性回归是用于线性类型数据的最佳算法之一,它同样可以返回非常准确的预测结果。尽管在用任何算法训练一个模型之后,都有必要检查该算法的性能,以了解该模型的表现,以及需要哪些东西来改进该模型。在这篇文章中,我们将讨论各种评估指标和评估线性回归算法的最佳指标。
为什么要寻找最佳评价指标
有许多评估指标可用于回归类型的算法,以检查算法在输入数据上的行为和性能。选择最好的和合适的评价指标类型是非常重要的,可以很容易地了解模型的错误和失误。
为了找到最合适的线性回归评价指标,首先需要了解算法的核心直觉和工作机制,以使讨论的基础清晰而有道理。
线性回归是如何工作的
线性回归算法的工作机制是非常容易理解和解释的。线性回归的基本原理是将数据点绘制在图表上,这里图表的尺寸将与数据的特征相等。由于数据是线性的,所以很容易找到最适合的线或回归线来预测其他点。
这里用一个简单的直线方程 y=mx+c 来寻找回归线。误差和其他预测仅在这条线的帮助下进行。
首先计算出m和c的最佳合适值,一旦完成,只需将x的值放入方程,它就会返回目标变量值y。
一旦得到最佳拟合线或回归线,就可以在这条线的帮助下计算误差。尽管不同的评价指标使用不同的方法。让我们试着去理解它们。
平均绝对误差
在这个评价指标中,y变量的值被替换为回归线预测的值,得到的绝对值被认为是模型的误差。
MAE = | Yi – Y^ |
MAE = 平均绝对误差
Yi = 数据点的目标实际值
Y^ = 数据点的目标预测值
平均平方误差
平均平方误差也是回归问题中最常用的评价指标之一。在这里,实际y变量的值被替换成回归线的预测y值,项的平方被认为是算法的平均平方误差。
MSE = (Yi – Y^)^2
MSE = 平均平方误差
Yi = 数据点的目标实际值
Y^ = 数据点的目标预测值
均方根误差
均方根误差简单地说就是均方根误差,主要用于了解小范围内的算法误差,因为均方根误差可以显示出非常大的误差,因为它是误差的平方。
RMSE=平方根((Yi-Y^)^2
RMSE = 平均平方误差的根值
Yi = 数据点的目标实际值
Y^ = 数据点的目标预测值
R2得分
R2得分也是一个著名的评估指标,大部分时间用于回归数据集。与准确度值相同,R2得分返回一个在0到100之间的数值。在这里,0表示表现最差的模型,100表示模型没有犯任何错误。
R2得分 = 1 – SSR/SSM
SSR=平方误差之和(回归线)
SSM = 平方误差之和(平均值)
哪个是最好的
由于我们已经讨论了线性回归算法和各种评估指标,那么现在是讨论最佳评估指标的最佳时机。好吧,我们不能说特定的评估指标对于线性回归中的任何类型的数据都是最好的,这完全取决于数据的类型和我们要评估的模型。
例如,如果数据有非常极端的离群值,那么离群值将比数据集中的正常观察值高或低。在这种情况下,离群值的误差项也会很高,如果你使用的是平均绝对误差,那么离群值的误差项会比使用平均平方误差的要低,因为MSE将误差值平方化,给了误差更大的权重。
因此,如果你想给异常值更多的权重,并使模型变得稳健,那么你可以使用MSE,它对异常值会有一个非常大的数值,模型可以针对异常值进行相应的调整。
另外,任何线性回归模型的R2得分和均方根误差的组合可以提供非常有价值的信息,它们都可以一起使用,以了解模型的表现和对数据的错误。需要注意的是,有时R2得分对于差的模型来说可能非常高,所以一定要同时检查模型的RMSE。
主要启示
- 对模型使用适当的评价指标可以非常有效地帮助调整和增强模型。
-
如果数据中没有明显的异常值,可以使用平均绝对误差。
-
如果你想给离群值误差更多的权重并相应地调整模型,可以使用平均平方误差。
-
R2得分和RMSE的组合大多是评估线性回归模型的最佳方案。
总结
在这篇文章中,我们讨论了线性回归和可用于评估的各种评价指标。我们还讨论了可用于评估线性回归的最佳评估指标以及其背后的原因。这将有助于人们更好地理解这些指标,并根据数据类型和情况来使用它们。