pandas.cut()

介绍

在数据分析和处理中，我们经常需要将连续数值型数据转换成离散的分类数据，以便于统计和分析。pandas中的cut()函数可以帮助我们实现这一转换，将连续数据按照一些指定的条件分段为不同的区间。这样可以更方便地对数据进行分析和可视化展示。

语法

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise', ordered=True)

参数说明：

x：待切分的数据
bins：表示切分的区间
right：是否包含右边界，默认为True
labels：用于替换返回的bin值的值，默认为None
retbins：是否返回bins，默认为False
precision：精度，默认为3
include_lowest：是否包含最左边，默认为False
duplicates：处理重复的边界值，默认为’raise’
ordered：是否排序，默认为True

示例

首先，我们导入pandas库并创建一个DataFrame用于示例演示。

import pandas as pd

data = {'score': [85, 92, 78, 90, 88, 73, 80, 95, 87, 81]}
df = pd.DataFrame(data)
print(df)

运行结果：

接下来，我们使用cut函数将分数划分为不同的等级。

bins = [0, 60, 70, 80, 90, 100]
labels = ['不及格', '及格', '中等', '良好', '优秀']
df['grade'] = pd.cut(df['score'], bins=bins, labels=labels)
print(df)

运行结果：

   score  grade
0     85     良好
1     92     优秀
2     78     中等
3     90     良好
4     88     良好
5     73     中等
6     80     中等
7     95     优秀
8     87     良好
9     81     良好

从结果可以看出，根据分数划分为不同的等级，并将结果添加到DataFrame中。

总结

通过pandas的cut()函数，我们可以方便地将连续的数据划分为不同的区间，以便于更好地分析和可视化展示数据。在实际应用中，可以根据具体需求设定不同的区间和标签，进一步优化数据处理和分析过程。

pandas.cut()

介绍

语法

示例

总结

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程

Pandas 精品教程

回顶部