Pandas – 对数据框架进行Groupby值计数
可以采用Pandas来分别计算数据框中每个值的频率。让我们看看如何在pandas数据框中计算Groupby值。为了计算pandas数据框架中的Groupby值,我们将使用groupby()size()和unstack()方法。
使用的方法:
- groupby(): groupby()函数用于根据一些标准将数据分成若干组。Pandas对象可以在其任何一个axis上进行分割。分组的抽象定义是提供一个标签到组名的映射
语法:
参数 :
- by : 映射、函数、str或iterable
- axis : int, default 0
- level:如果axis是一个多指标(分层),按一个或多个特定级别分组
- as_index : 对于聚合输出,返回以组标签为索引的对象。仅与DataFrame输入有关。as_index=False实际上是 “SQL风格 “的分组输出
- sort : 对组键进行排序。关掉这个功能可以获得更好的性能。注意这并不影响每组中观察值的顺序。groupby保留了每组中的行的顺序。
- group_keys : 当调用apply时,在索引中添加组键,以识别碎片
- squeeze : 如果可能的话,减少返回类型的维度,否则返回一个一致的类型
返回 : GroupBy 对象
- size(): size方法用于获取代表对象中元素数量的整数。如果DataFrame.Size方法返回的是行数乘以列数。
语法:Dataframe.size()
- unstack(): unstack方法对DataFrame中的MultiIndex对象起作用,产生一个重塑的DataFrame,其最内层有新的列标签。
语法:Dataframe.unstack()
步骤
- Import module
- 创建或加载数据
- 创建数据框架
- 每个值的出现次数的计算值
- 打印生成的数据框
示例1:
输出:
示例 2:
输出: