R语言 标签编码

R语言 标签编码

为执行操作和分析而必须处理的数据应该容易理解并有良好的标记。当需要进行数据训练和基于它的预测时,计算机发现很难处理字符串和其他对象。标签编码是一种为字符串变量分配数值的机制,这样它们就很容易被转化并输入各种模型。因此,标签编码器通常将分类变量转换为积分值。解码器则执行相反的操作。

R语言 标签编码

标签编码器将分类变量的矢量作为输入,并将其转换为数字形式。最初,一个向量被作为输入送入编码器。

为了实现R编程语言中的标签编码,我们有两种方法。

  1. 使用superml
  2. 使用 factors()

让我们讨论一下下面的方法。

使用superml获得R编程中的标签编码

R语言中的superml包是为了统一R语言中的模型训练过程而设计的,它可以通过以下命令下载并安装到工作空间。

install.packages("superml")
R

最初,使用LabelEncoder$new()实例化一个新的标签编码器对象。作为输入的矢量被用于拟合模型。变换是通过fit_transform方法进行的,该方法执行变换。最后的结果是数字向量。

下面的操作顺序被执行。

  • encoder$fit(x)
  • encoder$fit_transform(x)
  • encoder$transform(x)

参数:

  • x – 要提供的向量
  • 在下面的代码片段中,有2个组,因此,从数字上看,已经创建了一个由0和1组成的二进制矢量。

用上述命令安装了superml库后,我们现在可以运行下面的代码。

x = c("Geekster","GeeksforGeeks","Geekster","Geekster",
      "GeeksforGeeks","GeeksforGeeks","Geekster","GeeksforGeeks",
      "Geekster","Geekster")
  
print("Original Data Vector")
print(x )
  
# create a label encoder object
encoder = LabelEncodernew()
  
# fitting the data over the x vector
encoderfit(x)
  
# transforming the data
encoderfit_transform(x)
  
# printing the transformed data
encodertransform(x)
R

输出

R编程中的标签编码

在R编程中使用factors()来获取标签编码

基准R中的因子方法被用来将给定的数据转化为分类变量。数值被分配给每个变量。如果我们希望使用数字实例,我们可以简单地使用as.numeric()方法进行转换。

语法: factor(x)

参数: x – 要编码的向量

在下面的代码中,公司向量中包含的数据首先被按字母顺序排序。然后将级别分配给数值,并映射为从1开始的整数。”GeeksForGeeks “这个词被分配了1个级别,在最终的输出中,它的所有出现都被替换为1。

# creating a data vector
companies =  c("Geekster","TCS","Geekster","Geekster",
               "GeeksforGeeks",
               "Wipro","Geekster",
               "GeeksforGeeks",
               "Geekster","Wipro","TCS")
  
# printing the original vector
print("Original Data")
print(companies)
  
# converting the data to factors
factors <- factor(companies)
  
# converting data to label encoded values
print("Label Encoded Data")
  
# printing the numeric equivalents of these vector values
print(as.numeric(factors))
R

输出:

R编程中的标签编码

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

登录

注册