Pandas 教程

Pandas 教程Pandas 是一个专门用于数据分析的开源Python库。目前,所有使用python语言研究和分析数据集的专业人士,在做相关统计分析和决策时,Pandas 都是他们的基础工具。

Pandas 教程

历史起源

2008年,Wes McKinny一人挑起了Pandas库的设计和开发工作。

2012 年,他的同事Sien Chang加入开发,他两一起开发了Python社区最为有用的库之一 – Pandas

数据分析工作需要一个专门的库,它能够用最简单的方式提供数据处理、数据抽取和数据操作所需要的全部工具,开发Pandas正是为了满足这个需求。

Wes MicKinny选择以Numpy库作为Python库Pandas的基础进行设计,可以说,该选择对于Pandas的成功和它的迅速扩展起着非常重要的作用。事实上,选择Numpy为基础,不仅使Pandas能和其他大多数模块相兼容,而且还能借力Numpy模块在计算方面性能高的优势。

另外一个意义深远的决定是为数据分析专门设计了两种数据结构。实际情况是,Pandas 没有使用Pandas已有的内置数据结构,也没有使用其他库的数据结构,而是开发了两种新型的数据结构。这两种数据结构的设计初衷是用于关系型或带标签的数据。用它们管理与SQL关系数据库和Excel工作表具有类似特征的数据很方便。

学习本教程需要了解的知识

python 基础知识
Pandas 教程

Numpy 基础知识
Pandas 教程

文章目录

本教程介绍Pandas基础知识,包含Panda安装、主要的数据结构: Series, DataFrame, Panel,函数应用、统计方法、索引、字符串、文本数据等等,文章主要目录和简介如下:

  • Pandas 简介,Pandas是一个开放源码的Python库,它使用强大的数据结构提供高性能的数据操作。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
  • Pandas 环境配置,标准的Python发行版并没有将Pandas模块捆绑在一起发布。安装Pandas模块的一个比较简单的方式是采用Python包安装程序pip来进行安装。
  • Pandas 数据结构,Pandas包含以下三个数据结构:系列(Series),数据帧(DataFrame),面板(Panel)。
  • Pandas Series是pandas中的一维数据结构,类似于python中的列表和Numpy中的Ndarray对象。
  • Pandas DataFrame,Pandas 数据帧(DataFrame)是二维数据结构,它包含一组有序的列,每列可以是不同的数据类型,DataFrame既有行索引,也有列索引,它可以看作是Series组成的字典,不过这些Series共用一个索引。
  • Pandas 描述性统计,有很多方法用来计算DataFrame的描述性统计信息和其他相关操作。 其中大多数是sum(),mean()等聚合函数,但其中一些,如sumsum(),产生一个相同大小的对象。 一般来说,这些方法采用轴参数,就像ndarray.{sum,std,…},但轴可以通过名称或整数来指定。
  • Pandas 函数应用,要将自定义或其他库的函数应用于Pandas对象,有三个重要的方法,下面来讨论如何使用这些方法。使用适当的方法取决于函数是否期望在整个DataFrame行或列或元素上进行操作。
  • Pandas 排序,本章介绍几种Pandas常用的排序方式,它们分别是:按标签排序(行排序和列排序),按值排序。
  • Pandas字符串和文本数据,在本章中,我们将使用基本系列,索引来讨论字符串操作。在随后的章节中,将学习如何将这些字符串函数应用于数据帧(DataFrame)。
  • Pandas 选项和自定义,Pandas 有五个相关函数实现自定义操作,分别是 get_option、set_option、reset_option、describe_option、option_context。
  • Pandas 索引和选择数据,Python和NumPy索引运算符”[]”和属性运算符”.”可以快速轻松地访问Pandas数据结构。由于要访问的数据类型不是预先知道的,直接使用标准运算符具有一些限制。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程