Python Pandas – get_dummies()方法

pandas.get_dummies()是用于数据处理的。它将分类数据转换为虚拟变量或指标变量。

语法: pandas.get_dummies(data, prefix=None, prefix_sep=’_’, dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)

参数:

data：谁的数据要被操作。
prefix:用于附加DataFrame列名的字符串。在DataFrame上调用get_dummies时，传递一个长度等于列数的列表。默认值为无。
prefix_sep: 在添加任何前缀时使用的分隔符/分界符。默认为”_”。
dummy_na: 它增加了一列来表示NaN值，默认值为false，如果false，NaN将被忽略。
columns:DataFrame中需要编码的列名。默认值是无，如果列是无，那么所有具有对象或类别类型的列都将被转换。
sparse:它指定假编码列是否应该由SparseArray（True）或普通NumPy数组（False）来支持。默认值为False。
drop_first: 删除第一层，从k个分类层次中得到k-1个假人。
dtype: 新列的数据类型。只允许有一个dtype。默认值是np.uint8。

返回值: Dataframe (Dummy-coded data)

示例 1:

import pandas as pd
 
con = pd.Series(list('abcba'))
print(pd.get_dummies(con))

输出:

Python Pandas - get_dummies()方法

输出

示例 2:

import pandas as pd
import numpy as np
 
 
# list
li = ['s', 'a', 't', np.nan]
print(pd.get_dummies(li))

输出:

Python Pandas - get_dummies()方法

Nan列不存在，因为默认情况下dummy_na是假的。

Example 3: (To get NaN column)

import pandas as pd
import numpy as np
 
 
# list
li = ['s', 'a', 't', np.nan]
print(pd.get_dummies(li, dummy_na=True))

输出:

Python Pandas - get_dummies()方法

示例 4:

import pandas as pd
import numpy as np
 
 
# dictionary
diff = pd.DataFrame({'R': ['a', 'c', 'd'],
                     'T': ['d', 'a', 'c'],
                     'S_': [1, 2, 3]})
 
print(pd.get_dummies(diff, prefix=['column1', 'column2']))

输出:

Python Pandas - get_dummies()方法