Pandas 常用函数,本文介绍 Pandas 的常用函数,包括数据操作函数,检测缺失数据函数,日期时间函数,统计函数,迭代函数,排序函数等等。

数据操作函数
| 函数名称 | 函数说明 |
|---|---|
| melt() | 将Dataframe从宽格式转换为长格式 |
| pivot() | 根据给定的index/columns值,重新生成一个新的DataFrame对象 |
| pivot_table() | 创建一个电子表格样式的数据透视表作为DataFrame。 |
| crosstab() | 计算两个(或多个)因子的简单交叉表。 |
| cut() | 将值转换成离散的区间 |
| qcut() | Quantile-based离散化函数。 |
| merge() | 使用数据库风格的连接合并 DataFrame 或 Series 对象。 |
| merge_ordered() | 为有序的数据执行填充或插值,如时间序列数据。 |
| merge_asof() | 执行asof合并。 |
| concat() | Pandas的concat()函数实现了按索引拼接的功能 |
| get_dummies() | 将分类变量转换为 dummy 或 indicator 变量。 |
| factorize() | 将对象编码为枚举类型或分类变量。 |
| unique() | 基于哈希表的唯一性 |
| wide_to_long() | 宽 panel 到长格式。 |
检测缺失数据函数
| 函数名称 | 函数说明 |
|---|---|
| isna() | 用于检测数组对象中的缺失值。 |
| isnull() | 用于检测数组对象中的缺失值。 |
| notna() | 用于检测数组对象中的非缺失值。 |
| notnull() | 用于检测数组对象中的非缺失值。 |
日期时间函数
| 函数名称 | 函数说明 |
|---|---|
| to_datetime() | 用于将参数转换为日期时间。 |
| to_timedelta() | 用于将参数转换为日期时间。 |
| date_range() | 使用此方法可获得固定频率的日期时间索引。 |
| bdate_range() | 按索引连接 pandas 对象 |
| period_range() | 按索引连接 pandas 对象 |
| timedelta_range() | 按索引连接 pandas 对象 |
统计函数
| 函数名称 | 函数说明 |
|---|---|
| df.sum() | 所有值之和 |
| df.mean() | 所有值的平均值 |
| df.median() | 所有值的中位数字 |
| df.mode() | 值的模值 |
| df.std() | 值的标准偏差 |
| df.min() | 所有值中的最小值 |
| df.max() | 所有值中的最大值 |
| df.abs() | 绝对值 |
| prod() | 数组元素的乘积 |
| cumsum() | 累计总和 |
| cumprod() | 累计乘积 |
| pct_change() | 此函数将每个元素与其前一个元素进行比较,并计算变化百分比 |
| cov() | 协方差 |
| corr() | 相关系数 |
迭代函数
| 函数名称 | 函数说明 |
|---|---|
| df.iteritems() | 迭代(key,value)对 |
| df.iteritems() | 将每个列作为键,将值与值作为键和列值迭代为Series对象。 |
| df.iterrows() | 返回迭代器,产生每个索引值以及包含每行数据的序列。 |
| df.itertuples() | 为DataFrame中的每一行返回一个产生一个命名元组的迭代器 |
排序函数
| 函数名称 | 函数说明 |
|---|---|
| df.sort_index() | 按行排序或按列排序 |
| df.sort_values() | 按值排序 |
自定义函数
| 函数名称 | 函数说明 |
|---|---|
| get_option() | 获取解释器的默认参数值 |
| set_option() | 设置解释器的参数值 |
| reset_option() | 解释器的参数重置为默认值 |
| describe_option() | 打印参数的描述 |
| option_context() | 临时设置解释器的参数,退出使用块时,恢复为默认值 |
其他
| 函数名称 | 函数说明 |
|---|---|
| to_numeric() | 将参数转换为数字类型 |
| interval_range() | 按索引连接 pandas 对象 |
| df.pop() | 从DataFrame中删除一行或一列 |
| df.drop() | 使用索引标签从 DataFrame 中删除行。 如果标签重复,则会删除多行。 |
df.loc[] |
DataFrame 按照索引来选择某行 |
df.iloc[] |
DataFrame 按照位置来选择某行 |
| df.append() | 将新行添加到 DataFrame |
| df.head() | 返回 DataFrame 开头前 n 行 |
| df.tail() | 返回 DataFrame 最后 n 行 |
| df.reindex_like() | 对DataFrame重建索引 |
| df.rename() | 对轴进行重命名 |
| 属性 | 说明 |
|---|---|
| df.T | 转置行或列 |
| df.axes | 返回一个列,行轴标签和列轴标签作为唯一的成员 |
| df.dtypes | 返回每列的数据类型 |
| df.empty | 返回布尔值,表示对象是否为空, 返回True表示对象为空。 |
| df.ndim | 返回对象的维数,根据定义,DataFrame是一个2D对象。 |
| df.shape | 返回表示DataFrame的维度的元组。 元组(a,b),其中a表示行数,b表示列数。 |
| df.size | 返回 DataFrame 中的元素个数。 |
| df.values | 将DataFrame中的实际数据作为NDarray返回。 |
极客教程