Pandas 常用函数,本文介绍 Pandas 的常用函数,包括数据操作函数,检测缺失数据函数,日期时间函数,统计函数,迭代函数,排序函数等等。
数据操作函数
函数名称 | 函数说明 |
---|---|
melt() | 将Dataframe从宽格式转换为长格式 |
pivot() | 根据给定的index/columns值,重新生成一个新的DataFrame对象 |
pivot_table() | 创建一个电子表格样式的数据透视表作为DataFrame。 |
crosstab() | 计算两个(或多个)因子的简单交叉表。 |
cut() | 将值转换成离散的区间 |
qcut() | Quantile-based离散化函数。 |
merge() | 使用数据库风格的连接合并 DataFrame 或 Series 对象。 |
merge_ordered() | 为有序的数据执行填充或插值,如时间序列数据。 |
merge_asof() | 执行asof合并。 |
concat() | Pandas的concat()函数实现了按索引拼接的功能 |
get_dummies() | 将分类变量转换为 dummy 或 indicator 变量。 |
factorize() | 将对象编码为枚举类型或分类变量。 |
unique() | 基于哈希表的唯一性 |
wide_to_long() | 宽 panel 到长格式。 |
检测缺失数据函数
函数名称 | 函数说明 |
---|---|
isna() | 用于检测数组对象中的缺失值。 |
isnull() | 用于检测数组对象中的缺失值。 |
notna() | 用于检测数组对象中的非缺失值。 |
notnull() | 用于检测数组对象中的非缺失值。 |
日期时间函数
函数名称 | 函数说明 |
---|---|
to_datetime() | 用于将参数转换为日期时间。 |
to_timedelta() | 用于将参数转换为日期时间。 |
date_range() | 使用此方法可获得固定频率的日期时间索引。 |
bdate_range() | 按索引连接 pandas 对象 |
period_range() | 按索引连接 pandas 对象 |
timedelta_range() | 按索引连接 pandas 对象 |
统计函数
函数名称 | 函数说明 |
---|---|
df.sum() | 所有值之和 |
df.mean() | 所有值的平均值 |
df.median() | 所有值的中位数字 |
df.mode() | 值的模值 |
df.std() | 值的标准偏差 |
df.min() | 所有值中的最小值 |
df.max() | 所有值中的最大值 |
df.abs() | 绝对值 |
prod() | 数组元素的乘积 |
cumsum() | 累计总和 |
cumprod() | 累计乘积 |
pct_change() | 此函数将每个元素与其前一个元素进行比较,并计算变化百分比 |
cov() | 协方差 |
corr() | 相关系数 |
迭代函数
函数名称 | 函数说明 |
---|---|
df.iteritems() | 迭代(key,value) 对 |
df.iteritems() | 将每个列作为键,将值与值作为键和列值迭代为Series对象。 |
df.iterrows() | 返回迭代器,产生每个索引值以及包含每行数据的序列。 |
df.itertuples() | 为DataFrame中的每一行返回一个产生一个命名元组的迭代器 |
排序函数
函数名称 | 函数说明 |
---|---|
df.sort_index() | 按行排序或按列排序 |
df.sort_values() | 按值排序 |
自定义函数
函数名称 | 函数说明 |
---|---|
get_option() | 获取解释器的默认参数值 |
set_option() | 设置解释器的参数值 |
reset_option() | 解释器的参数重置为默认值 |
describe_option() | 打印参数的描述 |
option_context() | 临时设置解释器的参数,退出使用块时,恢复为默认值 |
其他
函数名称 | 函数说明 |
---|---|
to_numeric() | 将参数转换为数字类型 |
interval_range() | 按索引连接 pandas 对象 |
df.pop() | 从DataFrame中删除一行或一列 |
df.drop() | 使用索引标签从 DataFrame 中删除行。 如果标签重复,则会删除多行。 |
df.loc[] |
DataFrame 按照索引来选择某行 |
df.iloc[] |
DataFrame 按照位置来选择某行 |
df.append() | 将新行添加到 DataFrame |
df.head() | 返回 DataFrame 开头前 n 行 |
df.tail() | 返回 DataFrame 最后 n 行 |
df.reindex_like() | 对DataFrame重建索引 |
df.rename() | 对轴进行重命名 |
属性 | 说明 |
---|---|
df.T | 转置行或列 |
df.axes | 返回一个列,行轴标签和列轴标签作为唯一的成员 |
df.dtypes | 返回每列的数据类型 |
df.empty | 返回布尔值,表示对象是否为空, 返回True表示对象为空。 |
df.ndim | 返回对象的维数,根据定义,DataFrame是一个2D对象。 |
df.shape | 返回表示DataFrame的维度的元组。 元组(a,b),其中a表示行数,b表示列数。 |
df.size | 返回 DataFrame 中的元素个数。 |
df.values | 将DataFrame中的实际数据作为NDarray返回。 |