Pandas数据按值范围分组

在本文中，我们将介绍如何使用Pandas对数据按值范围进行分组。

在数据分析中，经常需要对数据进行分组，以便更好地理解数据并提取有用信息。另一方面，数据中可能存在的连续变量需要进行离散化以进行分组。因此，将数据按值范围分组是一种常见的数据处理技巧之一。

假设我们有一组数据，包含一个人的年龄和身高数据，现在需要对年龄数据进行分组，以便更好地观察不同年龄段之间身高的变化。首先，我们需要将年龄数据分成数个范围，然后将数据分组并计算每个范围内的平均身高。

数据预处理

我们从导入Pandas数据处理库开始，并创建一个简单的DataFrame作为示例数据。

import pandas as pd
import numpy as np

data = {'age': [24, 21, 30, 26, 20, 29, 34, 32],
        'height': [172, 176, 162, 168, 170, 178, 164, 170]}
df = pd.DataFrame(data)

DataFrame的数据如下所示：

	age	height
0	24	172
1	21	176
2	30	162
3	26	168
4	20	170
5	29	178
6	34	164
7	32	170

对数据进行分组

接下来，我们将进行分组操作。在本例中，我们将数据按年龄范围分成3组，即20-25岁，26-30岁和31-35岁。首先，我们需要创建一个分组依据（groupby）对象，然后使用pd.cut()函数将数据按分组依据进行离散化。

labels = ['20-25', '26-30', '31-35']
bins = [20, 25, 30, 35]
df['age_group'] = pd.cut(df['age'], bins=bins, labels=labels)

grouped = df.groupby('age_group')
results = grouped.mean()

最后，我们使用groupby函数将数据按照分组依据进行分组，然后通过计算每个分组内的平均身高来得到分组结果。分组后的DataFrame如下所示：