Pandas 数据结构,Pandas包含以下三个数据结构
:系列(Series
),数据帧(DataFrame
),面板(Panel
)。
这些数据结构构建在Numpy数组之上,这意味着它们处理速度很快。
维数和描述
可以简单理解为,高维数据结构是低维数据结构的容器。 例如,DataFrame
是Series
的容器,Panel
是DataFrame
的容器。
数据结构 | 维数 | 描述 |
---|---|---|
Series | 1 | 一维数组,大小不 可变,由同种数据类型元素组成。 |
DataFrame | 2 | 二维数组,大小可变 的表格结构,它含有一组有序的列,每列可以是不同的数据类型(整型、字符串、布尔值等) |
Panel | 3 | 大小可变 的三维数组 |
构建和处理两维或多维数组是一项繁琐的任务,用户在编写函数时要考虑数据集的方向。 但是使用Pandas数据结构,减少了用户的思考。
例如,使用表格数据(DataFrame
),在语义上只需要考虑行
和列
,而不是轴0
和轴1
。
可变性
数据结构 | 数据 | 大小 |
---|---|---|
Series | 数据可变 | 大小不可变 |
DataFrame | 数据可变 | 大小可变 |
Panel | 数据可变 | 大小可变 |
DataFrame
被广泛使用,是最重要的数据结构之一, Panel
使用就要少很多。
Series
Series是由相同数据类型组成的一维数组。例如,如下Series是整数:10
,23
,56
,...
的集合。
Series 关键信息:
- 同种类型数据构成
- 大小不可变
- 数据可变
DataFrame
数据帧(DataFrame) 是大小可变的数据结构,每列可以是不同的数据类型(整型、字符串、布尔值等)。
姓名 | 年龄 | 性别 | 等级 |
---|---|---|---|
Maxsu | 25 | 男 | 4.45 |
Katie | 34 | 女 | 2.78 |
Vina | 46 | 女 | 3.9 |
Lia | 女 | x女 | 4.6 |
上表表示某销售团队的绩效评级数据,数据以行和列表示,每列表示一个属性,每行代表一个人。
DataFrame 四列的数据类型分别为:字符串,整数,字符串,浮点型
DataFrame 关键信息:
- 可以由不同的数据类型构成
- 大小可变
- 数据可变
Panel
面板(Panel)可以由不同的数据类型构成的三维数据结构,Panel
是DataFrame
的容器。
Panel 关键信息
- 可以由不同的数据类型构成
- 大小可变
- 数据可变