Pandas 简介,Pandas
是一个开放源码的Python库,它使用强大的数据结构提供高性能的数据操作。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
Python Pandas的官方网站是: https://pandas.pydata.org/
打开后如图所示:
Pandas 介绍
Pandas是python的一个数据分析包,最初由AQR Capital Management于2008年4月开发,并于2009年底开源出来,目前由专注于Python数据包开发的PyData开发team继续开发和维护,属于PyData项目的一部分。Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。panel data是经济学中关于多维数据集的一个术语,在Pandas中也提供了panel的数据类型。
Pandas用于广泛的领域,包括金融,经济,统计,分析等学术和商业领域。在本教程中,我们将学习Python Pandas的各种功能以及如何在实践中使用它们。
Pandas 主要特点
- 快速高效的DataFrame对象,具有默认和自定义的索引。
- 将数据从不同文件格式加载到内存中的数据对象的工具。
- 丢失数据的数据对齐和综合处理。
- 重组和摆动日期集。
- 基于标签的切片,索引和大数据集的子集。
- 可以删除或插入来自数据结构的列。
- 按数据分组进行聚合和转换。
- 高性能合并和数据加入。
- 时间序列功能。
Pandas 数据结构
Series
:一维数组,与Numpy中的一维array类似,二者与Python基本的数据结构List也很相近。Series如今能保存不同种数据类型,字符串、boolean值、数字等。Time-Series
:以时间为索引的Series。DataFrame
:二维的表格型数据结构,很多功能与R中的data.frame类似,可以将DataFrame理解为Series的容器。Panel
:三维数组,可以理解为DataFrame的容器。
现在就开始pandas
的学习之旅吧!