R语言 把DataFrame列转换为数值
在这篇文章中,我们将看到如何在R编程语言中把DataFrame列转换为数字。
所有的数据框架列都与一个类相关联,这个类是该列元素所属的数据类型的指标。因此,为了模拟数据类型的转换,在这种情况下,数据元素必须被转换为所需的数据类型,即该列的所有元素应该有资格成为数值。
sapply()方法可以用来检索向量形式的列变量的数据类型。用于以下操作的数据框架如下: 。
输出
transform()方法可以用来模拟在该方法的参数列表中指定的数据对象的修改。这些修改必须明确地保存到同一个数据框架或一个新的数据框架中。它可以用来向数据添加新的变量或修改现有的变量。
语法: transform(data, value)
参数:
- data – 要修改的数据对象
- value – 要添加的值
例子1:将因子类型的列转换为数值型的
在进行这些转换时,数据可能不会被保存下来。可能会出现数据丢失或篡改的情况。转换操作的结果必须被保存在某个变量中,以便进一步处理它。下面的代码片段说明了这一点。
输出
解释: col2中的原始数据框架值范围是4到7,而在modified中是以1开始的整数。这意味着在直接将因子转换为数字时,数据可能不会被保留。
为了保留数据,需要首先明确地将列的类型转换为as.character(col-name)。
输出
说明: 为了保持数据的统一性,首先将col2的数据类型改为as.character,然后再改为数值,这样就可以显示出数据的原貌。
例2:将字符型列转换为数值型
字符类型的列,无论是单个字符还是字符串,只有在这些转换是可能的情况下,才能转换为数字值。否则,数据就会丢失,并在执行时被编译器胁迫为缺失或NA值。
这种方法描述了由于插入缺失或NA值来代替字符而造成的数据损失。这些NA值的引入是因为相互转换是不可能直接实现的。
输出
解释: 使用sapply()方法,数据框架col3的类别是字符,即由单字节的字符值组成,但是在应用transform()方法时,这些字符值被转换成缺失或NA值,因为字符不能直接转换为数字数据。所以,这导致了数据丢失。
可以通过不使用stringAsFactors=FALSE来进行转换,然后首先使用as.factor()隐含地将字符转换为因子,然后使用as.numeric()转换为数字数据类型。即使在这种情况下,关于实际字符串的信息也会完全丢失。然而,数据变得模糊不清,并可能导致实际数据丢失。数据只是根据列值的lexicographic排序结果被赋予数字值。
输出
解释: col3中的第一个和第三个字符串是相同的,因此,分配了相同的数字值。总的来说,这些数值是按升序排序的,然后分配给相应的整数值。”For “是以词法顺序出现的最小的字符串,因此,分配数值为1,然后是 “Geeks”,这两个实例都被映射为2,”Gooks “被分配数值为3。 因此,col3的类型变为数值。
例3:将逻辑类型列转换为数字 类型
真值布尔值被赋予相当于2的数值,假值被赋予1的数值。
为了保留数据,由这些逻辑值组成的列首先用as.factor转换为因子类型的值,然后用as.numeric()给这些值分配一个数值,它只是给这两个值分配了整数标识。
输出
解释: 使用sapply()方法,数据框架中col5的类别是逻辑的,也就是由TRUE和FALSE布尔值组成,但是在应用transform()方法时,这些逻辑值被映射为整数,col5的类别被转换为数字的。