pandas库常用函数大全
1. pandas简介
pandas是Python中一个强大的数据分析工具,提供了丰富的数据结构和数据分析功能,被广泛应用于数据清洗、数据处理、数据分析与可视化等方面。本文将介绍pandas中常用的一些函数,帮助你更灵活地使用pandas进行数据处理。
2. 创建DataFrame和Series
在pandas中,DataFrame是一个二维的数据结构,可以理解为一个表格,而Series是一维的数据结构,可以理解为一列数据。下面是创建DataFrame和Series的几种常用方法:
2.1 通过字典创建DataFrame
import pandas as pd
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)
print(df)
运行结果:
A B C
0 1 4 7
1 2 5 8
2 3 6 9
2.2 通过列表创建Series
import pandas as pd
data = [1, 2, 3, 4, 5]
s = pd.Series(data)
print(s)
运行结果:
0 1
1 2
2 3
3 4
4 5
dtype: int64
3. 数据预览和统计信息
在进行数据处理前,我们常常需要查看数据的整体情况以及基本统计信息。下面是几个常用的函数:
3.1 查看DataFrame的前几行和最后几行
import pandas as pd
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)
print(df.head(2)) # 查看前2行
print(df.tail(2)) # 查看后2行
运行结果:
A B C
0 1 4 7
1 2 5 8
A B C
1 2 5 8
2 3 6 9
3.2 查看DataFrame的基本统计信息
import pandas as pd
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)
print(df.describe())
运行结果:
A B C
count 3.000000 3.000000 3.000000
mean 2.000000 5.000000 8.000000
std 1.000000 1.000000 1.000000
min 1.000000 4.000000 7.000000
25% 1.500000 4.500000 7.500000
50% 2.000000 5.000000 8.000000
75% 2.500000 5.500000 8.500000
max 3.000000 6.000000 9.000000
4. 数据选择和过滤
数据选择和过滤是数据处理的重要环节,下面介绍几种常用的方法:
4.1 选择指定列数据
import pandas as pd
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)
# 选择A列数据
print(df['A'])
运行结果:
0 1
1 2
2 3
Name: A, dtype: int64
4.2 过滤满足条件的数据
import pandas as pd
data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)
# 筛选A列大于1的行数据
print(df[df['A'] > 1])
运行结果:
A B C
1 2 5 8
2 3 6 9
5. 数据处理和操作
在实际应用中,我们经常需要对数据进行各种操作和处理,包括数据排序、合并、替换等。下面介绍几个常用的函数:
5.1 数据排序
import pandas as pd
data = {'A': [3, 1, 2], 'B': [6, 4, 5], 'C': [9, 7, 8]}
df = pd.DataFrame(data)
# 按B列升序排序
df = df.sort_values(by='B')
print(df)
运行结果:
A B C
1 1 4 7
2 2 5 8
0 3 6 9
5.2 数据合并
import pandas as pd
data1 = {'A': [1, 2, 3], 'B': [4, 5, 6]}
data2 = {'A': [4, 5, 6], 'B': [7, 8, 9]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)
# 横向合并
df = pd.concat([df1, df2], axis=1)
print(df)
运行结果:
A B A B
0 1 4 4 7
1 2 5 5 8
2 3 6 6 9
5.3 数据替换
import pandas as pd
data = {'A': [1, 2, 3], 'B': ['apple', 'banana', 'cherry']}
df = pd.DataFrame(data)
# 替换B列中的值
df['B'] = df['B'].replace({'apple': 'orange', 'banana': 'pear'})
print(df)
运行结果:
A B
0 1 orange
1 2 pear
2 3 cherry
6. 数据可视化
pandas提供了数据可视化的功能,可以方便地对数据进行可视化呈现。下面介绍几种常用的数据可视化方法:
6.1 绘制折线图
import pandas as pd
import matplotlib.pyplot as plt
data = {'A': [1, 2, 3, 4, 5], 'B': [6, 7, 8, 9, 10]}
df = pd.DataFrame(data)
df.plot(x='A', y='B', kind='line')
plt.show()
6.2 绘制柱状图
import pandas as pd
import matplotlib.pyplot as plt
data = {'A': ['apple', 'banana', 'cherry'], 'B': [10, 20, 30]}
df = pd.DataFrame(data)
df.plot(x='A', y='B', kind='bar')
plt.show()
6.3 绘制散点图
import pandas as pd
import matplotlib.pyplot as plt
data = {'A': [1, 2, 3, 4, 5], 'B': [6, 7, 8, 9, 10]}
df = pd.DataFrame(data)
df.plot.scatter(x='A', y='B')
plt.show()
7. 数据处理常用函数大全
除了上述介绍的常用函数外,pandas库还提供了众多便捷的数据处理函数,以下是一些常用函数的列表:
pd.read_csv()
:从CSV文件中读取数据df.dropna()
:删除包含缺失值的行df.fillna()
:填充缺失值df.groupby()
:按指定列进行分组df.pivot_table()
:创建数据透视表df.merge()
:合并两个DataFramedf.apply()
:对DataFrame的行或列应用函数df.corr()
:计算列之间的相关系数df.to_csv()
:将DataFrame保存为CSV文件
结语
本文介绍了pandas库的一些常用函数,包括数据的创建、预览、选择、过滤、处理和可视化等方面。通过学习和掌握这些函数,你可以更好地应用pandas库进行数据处理和分析,提高工作效率和数据处理的准确性。