pandas dataframe的groupby方法|极客教程

pandas dataframe的groupby方法

在数据分析中，我们经常需要对数据进行分组操作，以便对不同的组进行不同的分析。在pandas中，我们可以使用groupby方法来实现这一目标。本文将详细介绍pandas dataframe的groupby方法，包括其基本用法、常见的操作以及一些高级的用法。

1. groupby的基本用法

groupby方法的基本用法非常简单。首先，我们需要创建一个dataframe。然后，我们可以通过调用dataframe的groupby方法，并传入一个或多个列名，来对dataframe进行分组。

以下是一个简单的示例：

import pandas as pd
import numpy as np

# 创建一个dataframe
df = pd.DataFrame({
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
    'C': np.random.randn(8),
    'D': np.random.randn(8)
})

# 对'A'列进行分组
grouped = df.groupby('A')

# 打印分组结果
for name, group in grouped:
    print(name)
    print(group)

Output:

pandas dataframe的groupby方法

在这个示例中，我们首先创建了一个包含’A’、’B’、’C’和’D’四列的dataframe。然后，我们对’A’列进行了分组。最后，我们打印了每个组的名称和内容。

2. 对多列进行分组

我们也可以对多列进行分组。在这种情况下，我们需要传入一个包含多个列名的列表。

以下是一个示例：

import pandas as pd
import numpy as np

# 创建一个dataframe
df = pd.DataFrame({
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
    'C': np.random.randn(8),
    'D': np.random.randn(8)
})

# 对'A'和'B'列进行分组
grouped = df.groupby(['A', 'B'])

# 打印分组结果
for name, group in grouped:
    print(name)
    print(group)

Output:

pandas dataframe的groupby方法

在这个示例中，我们对’A’和’B’列进行了分组。这意味着，只有当’A’列和’B’列的值都相同时，两行才会被分到同一组。

3. 对分组进行聚合操作

在对dataframe进行分组后，我们通常会对每个组进行一些聚合操作，如求和、求平均值等。pandas提供了一些内置的聚合函数，如sum、mean等，我们也可以定义自己的聚合函数。

以下是一个示例：

import pandas as pd
import numpy as np

# 创建一个dataframe
df = pd.DataFrame({
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
    'C': np.random.randn(8),
    'D': np.random.randn(8)
})

# 对'A'列进行分组，并对'C'列求和
grouped = df.groupby('A')['C'].sum()
print(grouped)

Output:

pandas dataframe的groupby方法

在这个示例中，我们对’A’列进行了分组，并对每个组的’C’列求了和。

4. 对分组进行转换操作

除了聚合操作，我们还可以对每个组进行转换操作。转换操作会保留原始数据的形状，但会改变每个元素的值。

以下是一个示例：

import pandas as pd
import numpy as np

# 创建一个dataframe
df = pd.DataFrame({
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
    'C': np.random.randn(8),
    'D': np.random.randn(8)
})

# 对'A'列进行分组，并对'C'列进行标准化
grouped = df.groupby('A')['C'].transform(lambda x: (x - x.mean()) / x.std())
print(grouped)

Output:

pandas dataframe的groupby方法

在这个示例中，我们对’A’列进行了分组，并对每个组的’C’列进行了标准化。

5. 对分组进行过滤操作

我们还可以对每个组进行过滤操作。过滤操作会根据某些条件，决定是否保留每个组。

以下是一个示例：

import pandas as pd
import numpy as np

# 创建一个dataframe
df = pd.DataFrame({
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
    'C': np.random.randn(8),
    'D': np.random.randn(8)
})

# 对'A'列进行分组，并过滤出'C'列和大于0的组
grouped = df.groupby('A').filter(lambda x: x['C'].sum() > 0)
print(grouped)

Output:

pandas dataframe的groupby方法

在这个示例中，我们对’A’列进行了分组，并过滤出了’C’列和大于0的组。

6. 使用agg方法进行多个聚合操作

在某些情况下，我们可能需要对每个组进行多个聚合操作。这时，我们可以使用agg方法。

以下是一个示例：

import pandas as pd
import numpy as np

# 创建一个dataframe
df = pd.DataFrame({
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
    'C': np.random.randn(8),
    'D': np.random.randn(8)
})

# 对'A'列进行分组，并对'C'列求和和求平均值
grouped = df.groupby('A')['C'].agg(['sum', 'mean'])
print(grouped)

Output:

pandas dataframe的groupby方法

在这个示例中，我们对’A’列进行了分组，并对每个组的’C’列求了和和平均值。

7. 使用apply方法进行复杂的操作

在某些情况下，我们可能需要对每个组进行一些复杂的操作，这些操作无法通过内置的聚合函数或转换函数实现。这时，我们可以使用apply方法。

以下是一个示例：

import pandas as pd
import numpy as np

# 创建一个dataframe
df = pd.DataFrame({
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
    'C': np.random.randn(8),
    'D': np.random.randn(8)
})

# 对'A'列进行分组，并对每个组的'C'列和'D'列求和
grouped = df.groupby('A').apply(lambda x: pd.Series({
    'C_sum': x['C'].sum(),
    'D_sum': x['D'].sum()
}))
print(grouped)

在这个示例中，我们对’A’列进行了分组，并对每个组的’C’列和’D’列求了和。

8. 使用pivot_table方法进行分组和聚合

除了groupby方法，pandas还提供了pivot_table方法，可以用来进行分组和聚合操作。pivot_table方法的用法和groupby方法类似，但是它提供了更多的选项，可以更灵活地进行分组和聚合操作。

以下是一个示例：

import pandas as pd
import numpy as np

# 创建一个dataframe
df = pd.DataFrame({
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
    'C': np.random.randn(8),
    'D': np.random.randn(8)
})

# 使用pivot_table方法对'A'列进行分组，并对'C'列求和
table = df.pivot_table(values='C', index='A', aggfunc=np.sum)
print(table)

在这个示例中，我们使用pivot_table方法对’A’列进行了分组，并对’C’列求了和。

9. 使用crosstab方法进行交叉分组

pandas还提供了crosstab方法，可以用来进行交叉分组。crosstab方法可以计算两个或多个列的交叉表，这对于分析列之间的关系非常有用。

以下是一个示例：

import pandas as pd
import numpy as np

# 创建一个dataframe
df = pd.DataFrame({
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
    'C': np.random.randn(8),
    'D': np.random.randn(8)
})

# 使用crosstab方法计算'A'列和'B'列的交叉表
table = pd.crosstab(df['A'], df['B'])
print(table)

Output:

pandas dataframe的groupby方法

在这个示例中，我们使用crosstab方法计算了’A’列和’B’列的交叉表。

10. 使用cut方法进行分组

在某些情况下，我们可能需要根据数值列的范围进行分组。这时，我们可以使用cut方法。

以下是一个示例：

import pandas as pd
import numpy as np

# 创建一个dataframe
df = pd.DataFrame({
    'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
    'B': ['one', 'one', 'two', 'three', 'two', 'two', 'one', 'three'],
    'C': np.random.randn(8),
    'D': np.random.randn(8)
})

# 使用cut方法对'C'列进行分组
df['C_cut'] = pd.cut(df['C'], bins=[-np.inf, 0, np.inf])

# 对'C_cut'列进行分组，并对'D'列求和
grouped = df.groupby('C_cut')['D'].sum()
print(grouped)

在这个示例中，我们使用cut方法对’C’列进行了分组，并对每个组的’D’列求了和。

总结起来，pandas的groupby方法提供了一种强大的工具，可以用来对dataframe进行分组和聚合操作。通过使用groupby方法，我们可以轻松地对数据进行分析和处理。