pandas库常用函数大全

pandas库常用函数大全

pandas库常用函数大全

1. pandas简介

pandas是Python中一个强大的数据分析工具,提供了丰富的数据结构和数据分析功能,被广泛应用于数据清洗、数据处理、数据分析与可视化等方面。本文将介绍pandas中常用的一些函数,帮助你更灵活地使用pandas进行数据处理。

2. 创建DataFrame和Series

在pandas中,DataFrame是一个二维的数据结构,可以理解为一个表格,而Series是一维的数据结构,可以理解为一列数据。下面是创建DataFrame和Series的几种常用方法:

2.1 通过字典创建DataFrame

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)
print(df)

运行结果:

   A  B  C
0  1  4  7
1  2  5  8
2  3  6  9

2.2 通过列表创建Series

import pandas as pd

data = [1, 2, 3, 4, 5]
s = pd.Series(data)
print(s)

运行结果:

0    1
1    2
2    3
3    4
4    5
dtype: int64

3. 数据预览和统计信息

在进行数据处理前,我们常常需要查看数据的整体情况以及基本统计信息。下面是几个常用的函数:

3.1 查看DataFrame的前几行和最后几行

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

print(df.head(2))  # 查看前2行
print(df.tail(2))  # 查看后2行

运行结果:

   A  B  C
0  1  4  7
1  2  5  8

   A  B  C
1  2  5  8
2  3  6  9

3.2 查看DataFrame的基本统计信息

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

print(df.describe())

运行结果:

              A         B         C
count  3.000000  3.000000  3.000000
mean   2.000000  5.000000  8.000000
std    1.000000  1.000000  1.000000
min    1.000000  4.000000  7.000000
25%    1.500000  4.500000  7.500000
50%    2.000000  5.000000  8.000000
75%    2.500000  5.500000  8.500000
max    3.000000  6.000000  9.000000

4. 数据选择和过滤

数据选择和过滤是数据处理的重要环节,下面介绍几种常用的方法:

4.1 选择指定列数据

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 选择A列数据
print(df['A'])

运行结果:

0    1
1    2
2    3
Name: A, dtype: int64

4.2 过滤满足条件的数据

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 筛选A列大于1的行数据
print(df[df['A'] > 1])

运行结果:

   A  B  C
1  2  5  8
2  3  6  9

5. 数据处理和操作

在实际应用中,我们经常需要对数据进行各种操作和处理,包括数据排序、合并、替换等。下面介绍几个常用的函数:

5.1 数据排序

import pandas as pd

data = {'A': [3, 1, 2], 'B': [6, 4, 5], 'C': [9, 7, 8]}
df = pd.DataFrame(data)

# 按B列升序排序
df = df.sort_values(by='B')
print(df)

运行结果:

   A  B  C
1  1  4  7
2  2  5  8
0  3  6  9

5.2 数据合并

import pandas as pd

data1 = {'A': [1, 2, 3], 'B': [4, 5, 6]}
data2 = {'A': [4, 5, 6], 'B': [7, 8, 9]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

# 横向合并
df = pd.concat([df1, df2], axis=1)
print(df)

运行结果:

   A  B  A  B
0  1  4  4  7
1  2  5  5  8
2  3  6  6  9

5.3 数据替换

import pandas as pd

data = {'A': [1, 2, 3], 'B': ['apple', 'banana', 'cherry']}
df = pd.DataFrame(data)

# 替换B列中的值
df['B'] = df['B'].replace({'apple': 'orange', 'banana': 'pear'})
print(df)

运行结果:

   A       B
0  1  orange
1  2    pear
2  3  cherry

6. 数据可视化

pandas提供了数据可视化的功能,可以方便地对数据进行可视化呈现。下面介绍几种常用的数据可视化方法:

6.1 绘制折线图

import pandas as pd
import matplotlib.pyplot as plt

data = {'A': [1, 2, 3, 4, 5], 'B': [6, 7, 8, 9, 10]}
df = pd.DataFrame(data)

df.plot(x='A', y='B', kind='line')
plt.show()

6.2 绘制柱状图

import pandas as pd
import matplotlib.pyplot as plt

data = {'A': ['apple', 'banana', 'cherry'], 'B': [10, 20, 30]}
df = pd.DataFrame(data)

df.plot(x='A', y='B', kind='bar')
plt.show()

6.3 绘制散点图

import pandas as pd
import matplotlib.pyplot as plt

data = {'A': [1, 2, 3, 4, 5], 'B': [6, 7, 8, 9, 10]}
df = pd.DataFrame(data)

df.plot.scatter(x='A', y='B')
plt.show()

7. 数据处理常用函数大全

除了上述介绍的常用函数外,pandas库还提供了众多便捷的数据处理函数,以下是一些常用函数的列表:

  • pd.read_csv():从CSV文件中读取数据
  • df.dropna():删除包含缺失值的行
  • df.fillna():填充缺失值
  • df.groupby():按指定列进行分组
  • df.pivot_table():创建数据透视表
  • df.merge():合并两个DataFrame
  • df.apply():对DataFrame的行或列应用函数
  • df.corr():计算列之间的相关系数
  • df.to_csv():将DataFrame保存为CSV文件

结语

本文介绍了pandas库的一些常用函数,包括数据的创建、预览、选择、过滤、处理和可视化等方面。通过学习和掌握这些函数,你可以更好地应用pandas库进行数据处理和分析,提高工作效率和数据处理的准确性。

Python教程

Java教程

Web教程

数据库教程

图形图像教程

大数据教程

开发工具教程

计算机教程