Pandas中的数据结构
Pandas是一个开源的库,用于轻松和直观地处理关系型或标签型数据。它提供了各种数据结构和操作来处理数字数据和时间序列。它提供了一个清理和处理数据的工具。它是最流行的Python库,用于数据分析。在这篇文章中,我们将学习Pandas数据结构。
它支持两种数据结构。
- Series
- Dataframe
Series
Pandas是一个一维标记的数组,能够容纳任何类型的数据(整数、字符串、浮点、Python对象等)。
语法: pandas.Series( data=None , index=None , dtype=None , name=None , copy=False , fastpath=False)
参数:
- data : 数组- 包含存储在系列中的数据。
- index : 类似数组或索引(1d)
- dtype : str, numpy.dtype, or ExtensionDtype, optional
- name : str, optional
- copy: bool, 默认为 False
例子1:持有char数据类型的系列。
输出:
例子2:系列持有Int数据类型。
输出:
例子3:系列持有字典。
输出:
Dataframe
Pandas DataFrame是一个二维的大小可调的、可能是异质的表格式数据结构,有标记的轴(行和列)。数据框架是一个二维数据结构,也就是说,数据以表格的方式排列在行和列中,就像电子表格或SQL表,或Series对象的dict。.Pandas DataFrame由三个主要部分组成,即数据、行和列。
创建一个Pandas数据框架
在现实世界中,Pandas DataFrame将通过从现有的存储中加载数据集来创建,存储可以是SQL数据库、CSV文件和Excel文件。Pandas DataFrame可以从列表、字典和字典列表中创建。数据框架可以通过不同的方式创建,下面是我们创建数据框架的一些方法。
例子1: DataFrame可以使用一个单一的列表或一个列表来创建。
输出:
示例2:从ndarray/lists的dict中创建DataFrame。
要从narray/list的dict创建DataFrame,所有的narray必须是相同的长度。如果传递了索引,那么索引的长度应该等于数组的长度。如果没有传递索引,那么默认情况下,索引将是range(n),其中n是数组长度。
输出:
处理DataFrame中的列和行
选择列:为了在Pandas DataFrame中选择一个列,我们可以通过调用它们的列名来访问这些列。
输出:
如何从Pandas DataFrame中选择行和列
例子1:选择行。
pandas.DataFrame.loc是一个函数,用于根据提供的条件从Pandas DataFrame中选择行。
语法: df.loc[df[‘cname’] ‘condition’]
参数:
- df:代表数据框架
- cname: 代表列名
- condition:代表需要选择的行的条件。
输出:
例子2:选择列。
输出: