Python中的Pandas.cut()方法

Pandas cut()函数用于将数组中的元素分离成不同的bins。cut函数主要用于对标量数据进行统计分析。

语法:

cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates=”raise”,)

参数:

x:要分选的输入数组。必须是一维的。

bins:定义了用于分割的bin边缘。

right : (bool, default True ) 指示bins是否包括最右边的边。如果right == True（默认），那么bins [1, 2, 3, 4] 表示(1,2], (2,3], (3,4)。

labels : (array or bool, optional) 为返回的bin指定标签。必须与返回的分选区长度相同。如果是假的，只返回分选区的整数指标。

retbins : (bool, default False) 是否返回bins。当bins是以标量形式提供时很有用。

例子1：假设我们有一个从1到100的10个随机数的数组，我们希望把数据分成5个仓****，分别是（1,20], (20,40], (40,60], (60,80], (80,100] .

import pandas as pd
import numpy as np
 
 
df= pd.DataFrame({'number': np.random.randint(1, 100, 10)})
df['bins'] = pd.cut(x=df['number'], bins=[1, 20, 40, 60,
                                          80, 100])
print(df)
 
# We can check the frequency of each bin
print(df['bins'].unique())

输出:

Python中的Pandas.cut()方法

例子2：我们还可以给我们的仓添加标签，例如，让我们看看前面的例子，并给它添加一些标签。

import pandas as pd
import numpy as np
 
df = pd.DataFrame({'number': np.random.randint(1, 100, 10)})
df['bins'] = pd.cut(x=df['number'], bins=[1, 20, 40, 60, 80, 100],
                    labels=['1 to 20', '21 to 40', '41 to 60',
                            '61 to 80', '81 to 100'])
 
print(df)
 
# We can check the frequency of each bin
print(df['bins'].unique())

输出:

Python中的Pandas.cut()方法