Pandas Cut–从连续到分类
在数据分析中经常看到连续的、高度倾斜的数据等数字数据。有时,分析在从连续数据到离散数据的转换上变得毫不费力。有很多方法可以进行转换,其中一种方法是使用Pandas的集成切割函数。Pandas的切割函数是一种将数字连续数据转换为分类数据的杰出方式。它有3个主要的必要部分。
1.首先是输入所需的一维数组/数据帧。
2.另一个主要部分是Bins。仓,代表连续数据的独立仓的边界。第一个数字表示仓的起点,后面的数字表示仓的终点。剪切函数允许更明确的分档
3.最后的主要部分是标签。标签的数量毫无例外地会比仓的数量少一个。
注意:对于任何NA值,结果将被存储为NA。超出范围的值也将在结果的分类仓中显示为NA。
在使用pandas cut函数时,它不能保证每个bin中的值的分布。事实上,我们最终可能会以这样一种方式来定义仓,即仓中可能不包含任何值。
语法:
参数:
- x:输入数组。需要是一维的。
- bins:表示用于分割的bin边界
- right: 表示是否应包括仓位的最右边缘。布尔类型的值。默认值为True。
- labels”定义返回的细分仓的标签。数组或布尔值
返回值:返回一个分类系列/numpy数组/IntervalIndex
例子1:假设我们有一个由1到100的15个随机数组成的数组’Age’,我们希望将数据分成4个类别的bin —
输出:
例子2:假设我们有一个数组 “高度”,其中有12个随机的人,从150厘米到180厘米,我们希望将数据分成3个类别的仓。
输出: