R语言 标签编码
为执行操作和分析而必须处理的数据应该容易理解并有良好的标记。当需要进行数据训练和基于它的预测时,计算机发现很难处理字符串和其他对象。标签编码是一种为字符串变量分配数值的机制,这样它们就很容易被转化并输入各种模型。因此,标签编码器通常将分类变量转换为积分值。解码器则执行相反的操作。
R语言 标签编码
标签编码器将分类变量的矢量作为输入,并将其转换为数字形式。最初,一个向量被作为输入送入编码器。
为了实现R编程语言中的标签编码,我们有两种方法。
- 使用superml
- 使用 factors()
让我们讨论一下下面的方法。
使用superml获得R编程中的标签编码
R语言中的superml包是为了统一R语言中的模型训练过程而设计的,它可以通过以下命令下载并安装到工作空间。
最初,使用LabelEncoder$new()实例化一个新的标签编码器对象。作为输入的矢量被用于拟合模型。变换是通过fit_transform方法进行的,该方法执行变换。最后的结果是数字向量。
下面的操作顺序被执行。
- encoder$fit(x)
- encoder$fit_transform(x)
- encoder$transform(x)
参数:
- x – 要提供的向量
- 在下面的代码片段中,有2个组,因此,从数字上看,已经创建了一个由0和1组成的二进制矢量。
用上述命令安装了superml库后,我们现在可以运行下面的代码。
输出
在R编程中使用factors()来获取标签编码
基准R中的因子方法被用来将给定的数据转化为分类变量。数值被分配给每个变量。如果我们希望使用数字实例,我们可以简单地使用as.numeric()方法进行转换。
语法: factor(x)
参数: x – 要编码的向量
在下面的代码中,公司向量中包含的数据首先被按字母顺序排序。然后将级别分配给数值,并映射为从1开始的整数。”GeeksForGeeks “这个词被分配了1个级别,在最终的输出中,它的所有出现都被替换为1。
输出: