R语言 虚拟变量
R编程是用于数据挖掘和数据可视化的最常用语言之一。使用这种语言,任何类型的机器学习算法都可以被处理,如回归、分类,等等。在回归分析中使用虚拟编码对变量进行分类。 R编程中的 虚拟变量 是一种代表实验特征的变量类型。一个虚拟变量是1或0,1可以表示为真或假,0可以表示为假或真,这取决于用户。这个变量被用来对观察的特征进行分类。例如,一个人是男是女,纪律是好是坏,等等。此外,还将相应地建立新的列,指定该人是否为男性,作为gender_m的二进制值,以及该人是否为女性,作为gender_f的二进制值。
原始数据框:
创建虚拟变量后:
在这篇文章中,让我们讨论一下在R中使用两种方法来创建虚拟变量,即 ifelse() 方法和使用 dummy_cols() 函数。
使用ifelse()函数
ifelse() 函数执行一个测试,并根据测试的结果返回函数参数中提供的真值或假值。使用这个函数,可以相应地创建虚拟变量。
语法:
ifelse(test, yes, no)
参数:
test: 代表测试条件
yes: 代表如果测试条件满足将执行的值
no: 代表如果测试条件不满足将执行的值
例1 :
输出
例2 :
输出
使用dummy_cols()函数
dummy_cols() 函数存在于 fastDummies 包中。它根据函数中提供的参数来创建虚拟变量。如果在函数调用中没有选择需要创建虚拟变量的列,那么将为数据框架中的所有字符和因子列创建虚拟变量。
语法:
dummy_cols(.data, select_columns = NULL)
参数:
.data: 代表要创建虚拟列的对象
select_columns: 代表要创建虚拟变量的列。
例1 :
输出
例2 :
输出