R语言标签编码

为执行操作和分析而必须处理的数据应该容易理解并有良好的标记。当需要进行数据训练和基于它的预测时，计算机发现很难处理字符串和其他对象。标签编码是一种为字符串变量分配数值的机制，这样它们就很容易被转化并输入各种模型。因此，标签编码器通常将分类变量转换为积分值。解码器则执行相反的操作。

R语言标签编码

标签编码器将分类变量的矢量作为输入，并将其转换为数字形式。最初，一个向量被作为输入送入编码器。

为了实现R编程语言中的标签编码，我们有两种方法。

使用superml
使用 factors()

让我们讨论一下下面的方法。

使用superml获得R编程中的标签编码

R语言中的superml包是为了统一R语言中的模型训练过程而设计的，它可以通过以下命令下载并安装到工作空间。

install.packages("superml")

最初，使用LabelEncoder$new()实例化一个新的标签编码器对象。作为输入的矢量被用于拟合模型。变换是通过fit_transform方法进行的，该方法执行变换。最后的结果是数字向量。

下面的操作顺序被执行。

encoder$fit(x)
encoder$fit_transform(x)
encoder$transform(x)

参数:

x – 要提供的向量
在下面的代码片段中，有2个组，因此，从数字上看，已经创建了一个由0和1组成的二进制矢量。

用上述命令安装了superml库后，我们现在可以运行下面的代码。

x = c("Geekster","GeeksforGeeks","Geekster","Geekster",
      "GeeksforGeeks","GeeksforGeeks","Geekster","GeeksforGeeks",
      "Geekster","Geekster")
  
print("Original Data Vector")
print(x )
  
# create a label encoder object
encoder = LabelEncoder $new() # fitting the data over the x vector encoder$ fit(x)
  
# transforming the data
encoder $fit_transform(x) # printing the transformed data encoder$ transform(x)

输出

R编程中的标签编码

在R编程中使用factors()来获取标签编码

基准R中的因子方法被用来将给定的数据转化为分类变量。数值被分配给每个变量。如果我们希望使用数字实例，我们可以简单地使用as.numeric()方法进行转换。

语法： factor(x)

参数： x – 要编码的向量

在下面的代码中，公司向量中包含的数据首先被按字母顺序排序。然后将级别分配给数值，并映射为从1开始的整数。”GeeksForGeeks “这个词被分配了1个级别，在最终的输出中，它的所有出现都被替换为1。

# creating a data vector
companies =  c("Geekster","TCS","Geekster","Geekster",
               "GeeksforGeeks",
               "Wipro","Geekster",
               "GeeksforGeeks",
               "Geekster","Wipro","TCS")
  
# printing the original vector
print("Original Data")
print(companies)
  
# converting the data to factors
factors <- factor(companies)
  
# converting data to label encoded values
print("Label Encoded Data")
  
# printing the numeric equivalents of these vector values
print(as.numeric(factors))

输出:

R编程中的标签编码