R语言 如何在回归中包含因子
分类变量(也被称为因子或定性变量)是将观察值分类的变量。它们是字符串或数字,在统计建模中被称为因子变量。将正常的字符串变量保存为因子可以节省大量的内存。因子也可以作为水平变量或标签变量来存储。它们有数量有限的不同值,称为水平。例如,个人的性别是一个分类变量,可以有两个级别: 男性或女性。 回归需要数字变量。因此,当研究人员想在回归模型中包括一个分类变量时,需要采取一些步骤来使结果可以解释。让我们通过一个R语言的代码例子来看看这一切。
在R语言中的实现
将字符串或数字存储为因子
首先,让我们创建一个样本数据集。
输出
转换设置为因子的数字。
输出
现在对弦乐做同样的事情。
输出
有标签的因素
输出
有序因素
输出
另一种使一个因素有序化的方法是。
为了找到平均数
撤消级别
输出
用回归法实施
将实验视为学生在节日期间呆在学校的时间。
输出
回归方程为
**y = b 0 + b1 *x **
其中
y: 在预测变量(x)的基础上预测的输出变量。
**b 0 + b1 : **β系数,分别代表截距和斜率。
**b 0 + b1: **如果一个学生是男性, **b 0: **如果一个学生是女性。这些系数可以解释如下。
- **b 0 **是女学生在节庆活动中停留的平均时间。
- **b 0 + b1 **是男学生在节庆活动中停留的平均小时数,而
- **b 1 **是男女学生之间的平均时间差。
R通过以下代码自动创建虚拟变量。
输出
F学生的估计值为3.3333333,M学生的估计值为0.16666667。男学生和女学生的Pr值并不显著,只有0.90-0.02 ~ 0.9,也就是说,没有实际证据表明男学生比女学生呆的时间多。