Pandas GroupBy 用法

Pandas GroupBy用法,现在,我们来深入分析GoupBy过程及其工作原理,它的操作模式由三个阶段组成:

  • 分组:将数据集分成多个组
  • 用函数处理:用函数处理每一个组
  • 合并:把不同组得到的结果合并起来

第一阶段,也就是分组阶段,根据给定标准,把SeriesDataFrame数据结构中的数据分成不同的组,分组标准常与索引或某一列具体的元素相关。
第二阶段也称为“用函数处理”,使用函数处理或者执行由函数定义的计算,为每组数组生成单一的值。
第三阶段为合并,把来自每一组的结果汇集到一起,合并成一个新对象。

Pandas GroupBy用法

GroupBy 实例

Pandas 并没有使用三个函数来表示这个过程,而只使用了groupby()函数,它生成的GroupBy对象是整个过程的核心。通过如下例子来帮助理解,首先定义一个既包含数值又包含字符串的DataFrame对象。

import pandas as pd

df = pd.DataFrame({'color' : ['white', 'red', 'green', 'red', 'green'],
                   'object': ['pen', 'pencil', 'pencil', 'ashtray', 'pen'],
                   'price1': [5.56, 4.20, 1.30, 0.56, 2.75],
                   'price2': [4.75, 4.12, 1.60, 0.75, 3.15]})
print(df)

输出结果如下:

   color   object  price1  price2
0  white      pen    5.56    4.75
1    red   pencil    4.20    4.12
2  green   pencil    1.30    1.60
3    red  ashtray    0.56    0.75
4  green      pen    2.75    3.15

假如想使用Color列的组标签,计算price1列的均值,你可以先获取到price1列,然后调用groupby()函数,参数指定为color列。

df = pd.DataFrame({'color' : ['white', 'red', 'green', 'red', 'green'],
                   'object': ['pen', 'pencil', 'pencil', 'ashtray', 'pen'],
                   'price1': [5.56, 4.20, 1.30, 0.56, 2.75],
                   'price2': [4.75, 4.12, 1.60, 0.75, 3.15]})
group = df['price1'].groupby(df['color'])
print(group)

输出结果如下:

<pandas.core.groupby.groupby.SeriesGroupBy object at 0x000002107EE089E8>

得到的对象为GroupBy对象,刚进行的操作其实就是分组操作,把含有相同颜色的行分到同一个组中。
可以调用GroupBy对象的group属性,查看DataFrame各行的分组情况,每个组指定好它所包含的行,就可以对每组进行操作获取结果了。

import pandas as pd

df = pd.DataFrame({'color' : ['white', 'red', 'green', 'red', 'green'],
                   'object': ['pen', 'pencil', 'pencil', 'ashtray', 'pen'],
                   'price1': [5.56, 4.20, 1.30, 0.56, 2.75],
                   'price2': [4.75, 4.12, 1.60, 0.75, 3.15]})
group = df['price1'].groupby(df['color'])
print(group.groups)
print(group.mean())
print(group.sum())

输出结果如下:

{'red': Int64Index([1, 3], dtype='int64'), 'white': Int64Index([0], dtype='int64'), 'green': Int64Index([2, 4], dtype='int64')}
color
green    2.025
red      2.380
white    5.560
Name: price1, dtype: float64
color
green    4.05
red      4.76
white    5.56
Name: price1, dtype: float64

等级分组

前面介绍了用一列元素作为键为数据分组,同理,也可以使用多列,也就是使用多个键,按照等级关系分组。如下例所示:

import pandas as pd

df = pd.DataFrame({'color' : ['white', 'red', 'green', 'red', 'green'],
                   'object': ['pen', 'pencil', 'pencil', 'ashtray', 'pen'],
                   'price1': [5.56, 4.20, 1.30, 0.56, 2.75],
                   'price2': [4.75, 4.12, 1.60, 0.75, 3.15]})
group = df['price1'].groupby([df['color'], df['object']])
print(group.groups)
print(group.sum())

输出结果如下:

{('white', 'pen'): Int64Index([0], dtype='int64'), ('green', 'pen'): Int64Index([4], dtype='int64'), ('red', 'ashtray'): Int64Index([3], dtype='int64'), ('red', 'pencil'): Int64Index([1], dtype='int64'), ('green', 'pencil'): Int64Index([2], dtype='int64')}
color  object 
green  pen        2.75
       pencil     1.30
red    ashtray    0.56
       pencil     4.20
white  pen        5.56
Name: price1, dtype: float64

我们也可以按照多列数据或整个DataFrame把数据分成几组,如果你不想反复多次使用GroupBy对象,最方便的办法就是一次就把所有的分组依据和计算方法都指定好,无需定义任何中间变量,如下列所示:

import pandas as pd

df = pd.DataFrame({'color' : ['white', 'red', 'green', 'red', 'green'],
                   'object': ['pen', 'pencil', 'pencil', 'ashtray', 'pen'],
                   'price1': [5.56, 4.20, 1.30, 0.56, 2.75],
                   'price2': [4.75, 4.12, 1.60, 0.75, 3.15]})
print(df[['price1','price2']].groupby(df['color']).mean())
print(df.groupby(df['color']).mean())

输出结果如下:

       price1  price2
color                
green   2.025   2.375
red     2.380   2.435
white   5.560   4.750
       price1  price2
color                
green   2.025   2.375
red     2.380   2.435
white   5.560   4.750

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程