Python Pandas 描述性统计
大量的方法可以集体计算DataFrame的描述统计和其它相关操作。大部分是如 sum()、mean() 等聚合操作,但其中一些方法如 sumsum() 会返回一个与原对象相同大小的对象。一般而言,这些方法接受一个 axis 参数,与ndarray的sum、std等方法类似,但是axis可以通过名称或整数进行指定。
- DataFrame − “index” (axis=0,默认), “columns” (axis=1)
让我们创建一个DataFrame,并在本章节中使用该对象执行所有操作。
示例
它的 输出 如下:
sum()
返回请求轴上的值的总和。默认情况下,轴是索引(轴=0)。
它的 输出 如下所示−
每个列都是逐个添加的(字符串被追加)。
axis=1
通过这种语法,将会得到以下输出。
它的 输出 如下所示−
mean()
返回平均值
其 输出 如下:
std()
返回数值列的 Bressel 标准偏差。
它的 输出 如下所示−
函数和描述
让我们现在了解Python Pandas中描述性统计的函数。以下表格列出了重要的函数:
序号 | 函数 | 描述 |
---|---|---|
1 | count() | 非空值的观察数量 |
2 | sum() | 值的总和 |
3 | mean() | 值的平均值 |
4 | median() | 值的中位数 |
5 | mode() | 值的众数 |
6 | std() | 值的标准差 |
7 | min() | 最小值 |
8 | max() | 最大值 |
9 | abs() | 绝对值 |
10 | prod() | 值的乘积 |
11 | cumsum() | 累计求和 |
12 | cumprod() | 累计乘积 |
注意 - 由于DataFrame是一种异构数据结构,通用操作不适用于所有函数。
- 像 sum(),cumsum() 这样的函数,对于数字和字符(或字符串)数据元素都可以正常工作而不会出错。虽然通常情况下很少使用字符聚合,但这些函数不会引发任何异常。
-
像 abs(),cumprod() 这样的函数,在DataFrame包含字符或字符串数据时会抛出异常,因为不能执行此类操作。
汇总数据
describe() 函数计算有关DataFrame列的统计摘要。
它的 输出 如下−
该函数提供了 平均值、标准差 和 IQR值 。函数排除字符列,并给出数值列的摘要信息。 ‘include’ 是用于传递需要考虑进行摘要的列的必要信息的参数。接受值的列表,默认为’number’。
- object - 总结字符串列
- number - 总结数值列
- all - 总结所有列在一起(不应将其作为列表值传递)
现在,在程序中使用以下语句并检查输出 –
它的 输出 如下−
现在,使用以下语句并检查输出−
它的输出如下: