Python Pandas – get_dummies()方法

Python Pandas – get_dummies()方法

pandas.get_dummies()是用于数据处理的。它将分类数据转换为虚拟变量或指标变量。

语法: pandas.get_dummies(data, prefix=None, prefix_sep=’_’, dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)

参数:

  • data:谁的数据要被操作。
  • prefix:用于附加DataFrame列名的字符串。在DataFrame上调用get_dummies时,传递一个长度等于列数的列表。默认值为无。
  • prefix_sep: 在添加任何前缀时使用的分隔符/分界符。默认为”_”。
  • dummy_na: 它增加了一列来表示NaN值,默认值为false,如果false,NaN将被忽略。
  • columns:DataFrame中需要编码的列名。默认值是无,如果列是无,那么所有具有对象或类别类型的列都将被转换。
  • sparse:它指定假编码列是否应该由SparseArray(True)或普通NumPy数组(False)来支持。默认值为False。
  • drop_first: 删除第一层,从k个分类层次中得到k-1个假人。
  • dtype: 新列的数据类型。只允许有一个dtype。默认值是np.uint8。

返回值: Dataframe (Dummy-coded data)

示例 1:

import pandas as pd
 
con = pd.Series(list('abcba'))
print(pd.get_dummies(con))
Python

输出:

Python Pandas - get_dummies()方法

输出

示例 2:

import pandas as pd
import numpy as np
 
 
# list
li = ['s', 'a', 't', np.nan]
print(pd.get_dummies(li))
Python

输出:

Python Pandas - get_dummies()方法

Nan列不存在,因为默认情况下dummy_na是假的。

Example 3: (To get NaN column)

import pandas as pd
import numpy as np
 
 
# list
li = ['s', 'a', 't', np.nan]
print(pd.get_dummies(li, dummy_na=True))
Python

输出:

Python Pandas - get_dummies()方法

示例 4:

import pandas as pd
import numpy as np
 
 
# dictionary
diff = pd.DataFrame({'R': ['a', 'c', 'd'],
                     'T': ['d', 'a', 'c'],
                     'S_': [1, 2, 3]})
 
print(pd.get_dummies(diff, prefix=['column1', 'column2']))
Python

输出:

Python Pandas - get_dummies()方法

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

登录

注册