Pandas 数据处理,前面介绍了Pandas基本知识,Pandas 数据读写,本教程介绍数据处理,将数据转换为DataFrame格式后,你就可以对其进行处理了,数据处理的目的是准备数据,便于分析。数据处理可以使要寻找的信息以更加清晰的方式呈现出来,把数据处理成易于可视化的形式。
学习本教程需要了解的知识
- python 基础知识
Python是一种解释型、面向对象、动态数据类型的高级程序设计语言。Python由Guido van Rossum于1989年底发明,第一个公开发行版发行于1991年。像Perl语言一样, Python 源代码同样遵循 GPL(GNU General Public License)协议。 - Numpy 基础知识
NumPy是Python语言的一个扩充程序库。支持大量高级的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。Numpy内部解除了Python的PIL(全局解释器锁),运算效率极好,是大量机器学习框架的基础库! - Pandas 基础知识
Pandas 是一个专门用于数据分析的开源Python库。目前,所有使用python语言研究和分析数据集的专业人士,在做相关统计分析和决策时,Pandas 都是他们的基础工具。 - Pandas 数据读写
本教程将介绍Pandas从多种存储媒介(比如文件和数据库)读取数据的工具,还将学到直接将不同的数据结构写入不同格式文件的方法,无需考虑所使用的技术。本教程的主要内容为pandas的多种I/O API函数,它们为把大多数常用格式的数据作为DataFrame对象进行读写提供了很大的便利。
文章目录
开始处理数据工作之前,需要先行准备好数据,把数据组装成便于使用Pandas
库的各种工具处理的数据结构,数据准备阶段主要包含:加载、组装、变形或旋转,删除,加载阶段需要把不同格式的数据转换成DateFrame等结构。数据来源可能是来自不同的数据源,有着不同的格式,本章你将学会把数据转换为统一的数据结构所需的各种操作。文章主要目录如下:
- Pandas 合并(merge)
对于合并操作,熟悉SQL的同学可以将其理解为JOIN操作,它使用一个或多个键把多行数据结合在一起。Pandas库中这类操作叫做合并,执行合并操作的函数为merge()
。 - Pandas 拼接(concat)
Pandas另一种数据整合操作叫做拼接(concatenation),Pandas的convat()
函数实现了索引拼接的功能。 - Pandas 删除数据
Pandas提供了一个用于删除操作的函数drop()
,它返回不包含已删除索引及其元素的新对象。另外一种删除数据列的方式,就是对DataFrame对象应用del命令。通常情况,所有重复的行都需要从DataFrame对象中删除,Pandas库的drop_duplicateds()
函数实现了删除功能,该函数返回删除重复行后的DataFrame对象。 - Pandas 旋转数据
实际应用中,按行或列调整元素并不总能满足目标,有时,需要按照行重新调整列的元素或者按照列调整行的元素,本章介绍DataFrame转置,通过stack()
和unstack()
实现按索引旋转,pivot()
实现长格式向宽格式的旋转。 - Pandas GroupBy 用法
现在,我们来深入分析GoupBy过程及其工作原理,它的操作模式由三个阶段组成:(1)分组:将数据集分成多个组;(2)用函数处理:用函数处理每一个组;(3)合并:把不同组得到的结果合并起来。