R语言 线性回归
回归分析是一种非常广泛使用的统计工具,用于建立两个变量之间的关系模型。其中一个变量被称为预测变量,其值通过实验收集。另一个变量被称为响应变量,其值由预测变量推导得出。
在线性回归中,这两个变量通过一个方程相关联,其中这两个变量的累乘次数(幂)都为1。在数学上,线性关系在图形上表示为一条直线。当任何变量的累乘次数(幂)不等于1时,非线性关系将形成一条曲线。
线性回归的一般数学方程为 –
以下是使用的参数的描述-
- y 是响应变量。
-
x 是预测变量。
-
a 和 b 是常数,称为系数。
建立回归的步骤
回归的一个简单示例是在已知身高的情况下预测一个人的体重。为了做到这一点,我们需要有身高和体重之间的关系。
创建关系的步骤如下-
- 进行实验,收集一组观察到的身高和相应体重的样本。
-
使用R中的 lm() 函数创建关系模型。
-
从创建的模型中找到系数,并使用这些创建数学方程。
-
获取关系模型的摘要,了解预测中的平均误差。也称为残差。
-
要预测新人的体重,在R中使用 predict() 函数。
输入数据
以下是表示观察结果的样本数据-
lm()函数
该函数创建了预测变量和响应变量之间的关系模型。
语法
线性回归中lm()函数的基本语法如下:
以下是使用的参数的描述:
- formula 是表示x和y之间关系的符号。
-
data 是将应用公式的向量。
创建关系模型并获取系数
当我们执行上述代码时,它产生以下结果 –
获取关系摘要
当我们执行上面的代码时,它产生以下结果 –
predict()函数
语法
线性回归中predict()的基本语法为 –
以下是所使用参数的描述:
- object 是使用lm()函数已经创建的公式。
-
newdata 是包含预测变量新值的向量。
预测新人的体重
当我们执行以上代码时,它产生以下结果−
以图形方式可视化回归问题
当我们执行上面的代码时,会产生以下的结果 −