Python Pandas – get_dummies()方法
pandas.get_dummies()是用于数据处理的。它将分类数据转换为虚拟变量或指标变量。
语法: pandas.get_dummies(data, prefix=None, prefix_sep=’_’, dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)
参数:
- data:谁的数据要被操作。
- prefix:用于附加DataFrame列名的字符串。在DataFrame上调用get_dummies时,传递一个长度等于列数的列表。默认值为无。
- prefix_sep: 在添加任何前缀时使用的分隔符/分界符。默认为”_”。
- dummy_na: 它增加了一列来表示NaN值,默认值为false,如果false,NaN将被忽略。
- columns:DataFrame中需要编码的列名。默认值是无,如果列是无,那么所有具有对象或类别类型的列都将被转换。
- sparse:它指定假编码列是否应该由SparseArray(True)或普通NumPy数组(False)来支持。默认值为False。
- drop_first: 删除第一层,从k个分类层次中得到k-1个假人。
- dtype: 新列的数据类型。只允许有一个dtype。默认值是np.uint8。
返回值: Dataframe (Dummy-coded data)
示例 1:
输出:
输出
示例 2:
输出:
Nan列不存在,因为默认情况下dummy_na是假的。
Example 3: (To get NaN column)
输出:
示例 4:
输出: