如何使用 pandas 的 cut函数|极客教程

如何使用 pandas 的 cut函数

在数据分析过程中，经常需要对数据进行分组或者分段，以便更好地理解数据的分布和特征。Pandas 提供了一个非常有用的函数 cut，它可以帮助我们将连续的数值数据分割成离散的区间。本文将详细介绍如何使用 pandas 的 cut 函数，并提供多个示例代码，帮助大家更好地掌握这一功能。

1. pandas cut 基础

pandas.cut 函数可以将数值型数据分割成“箱子”，即不同的区间。这对于进行数据分析和统计非常有用，比如可以根据年龄将人群分成不同的年龄段，或者根据收入将数据分成不同的收入组。

示例代码 1: 基本使用

import pandas as pd

data = [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
bins = [0, 30, 60, 90, 120]
labels = ['Low', 'Medium', 'High', 'Very High']

result = pd.cut(data, bins=bins, labels=labels)
print(result)

Output:

如何使用 pandas 的 cut函数

示例代码 2: 不使用标签

import pandas as pd

data = [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
bins = [0, 30, 60, 90, 120]

result = pd.cut(data, bins=bins)
print(result)

Output:

如何使用 pandas 的 cut函数

2. 理解 cut 的参数

pandas.cut 函数有几个参数，理解这些参数对于有效使用这个函数非常重要。

示例代码 3: 使用 right 参数

import pandas as pd

data = [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
bins = [0, 30, 60, 90, 120]
labels = ['Low', 'Medium', 'High', 'Very High']

result = pd.cut(data, bins=bins, labels=labels, right=False)
print(result)

Output:

如何使用 pandas 的 cut函数

示例代码 4: 使用 include_lowest 参数

import pandas as pd

data = [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
bins = [0, 30, 60, 90, 120]
labels = ['Low', 'Medium', 'High', 'Very High']

result = pd.cut(data, bins=bins, labels=labels, include_lowest=True)
print(result)

Output:

如何使用 pandas 的 cut函数

3. cut 在实际数据中的应用

在实际的数据分析项目中，cut 函数可以用来创建数据的分类变量，这对于某些类型的数据分析非常有用。

示例代码 5: 对 DataFrame 使用 cut

import pandas as pd

df = pd.DataFrame({
    'Age': [22, 35, 58, 45, 36, 23, 37, 31, 49, 52],
    'Name': ['John', 'Anna', 'James', 'Laura', 'Jill', 'Eva', 'Gary', 'Oliver', 'Alice', 'Maria']
})
bins = [20, 30, 40, 50, 60]
labels = ['20s', '30s', '40s', '50s']

df['Age Group'] = pd.cut(df['Age'], bins=bins, labels=labels)
print(df)

Output:

如何使用 pandas 的 cut函数

示例代码 6: 处理缺失数据

import pandas as pd

data = [10, 20, None, 40, 50, 60, 70, None, 90, 100]
bins = [0, 30, 60, 90, 120]
labels = ['Low', 'Medium', 'High', 'Very High']

result = pd.cut(data, bins=bins, labels=labels)
print(result)

4. cut 与 qcut 的比较

Pandas 还提供了一个 qcut 函数，它基于样本分位数来分割数据。与 cut 相比，qcut 试图将数据分布到等数量的区间中，每个区间内的数据点数量大致相同。

示例代码 7: 使用 qcut

import pandas as pd

data = [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
result = pd.qcut(data, q=4)
print(result)

Output:

如何使用 pandas 的 cut函数

示例代码 8: 比较 cut 和 qcut

import pandas as pd

data = [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
bins = [0, 25, 50, 75, 100]
labels = ['Low', 'Medium', 'High', 'Very High']

cut_result = pd.cut(data, bins=bins, labels=labels)
qcut_result = pd.qcut(data, q=4, labels=labels)

print("Cut result:")
print(cut_result)
print("\nQCut result:")
print(qcut_result)

Output:

如何使用 pandas 的 cut函数

5. 高级应用

cut 函数的灵活性使其可以在多种高级数据处理场景中使用。

示例代码 9: 动态计算 bins

import pandas as pd
import numpy as np

data = np.random.rand(100) * 100
bins = np.linspace(0, 100, 11)

result = pd.cut(data, bins=bins)
print(result)

Output:

如何使用 pandas 的 cut函数

示例代码 10: 结合 groupby 使用

import pandas as pd

df = pd.DataFrame({
    'Data': np.random.randn(100),
    'Month': np.random.choice(['Jan', 'Feb', 'Mar', 'Apr'], 100)
})

bins = [-np.inf, -1, 0, 1, np.inf]
labels = ['Low', 'Medium', 'High', 'Very High']

df['Data Category'] = pd.cut(df['Data'], bins=bins, labels=labels)
summary = df.groupby(['Month', 'Data Category']).size().unstack().fillna(0)
print(summary)