pandas库常用函数大全|极客教程

pandas库常用函数大全

1. pandas简介

pandas是Python中一个强大的数据分析工具，提供了丰富的数据结构和数据分析功能，被广泛应用于数据清洗、数据处理、数据分析与可视化等方面。本文将介绍pandas中常用的一些函数，帮助你更灵活地使用pandas进行数据处理。

2. 创建DataFrame和Series

在pandas中，DataFrame是一个二维的数据结构，可以理解为一个表格，而Series是一维的数据结构，可以理解为一列数据。下面是创建DataFrame和Series的几种常用方法：

2.1 通过字典创建DataFrame

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)
print(df)

运行结果：

2.2 通过列表创建Series

import pandas as pd

data = [1, 2, 3, 4, 5]
s = pd.Series(data)
print(s)

运行结果：

0    1
1    2
2    3
3    4
4    5
dtype: int64

3. 数据预览和统计信息

在进行数据处理前，我们常常需要查看数据的整体情况以及基本统计信息。下面是几个常用的函数：

3.1 查看DataFrame的前几行和最后几行

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

print(df.head(2))  # 查看前2行
print(df.tail(2))  # 查看后2行

运行结果：

3.2 查看DataFrame的基本统计信息

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

print(df.describe())

运行结果：

              A         B         C
count  3.000000  3.000000  3.000000
mean   2.000000  5.000000  8.000000
std    1.000000  1.000000  1.000000
min    1.000000  4.000000  7.000000
25%    1.500000  4.500000  7.500000
50%    2.000000  5.000000  8.000000
75%    2.500000  5.500000  8.500000
max    3.000000  6.000000  9.000000

4. 数据选择和过滤

数据选择和过滤是数据处理的重要环节，下面介绍几种常用的方法：

4.1 选择指定列数据

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 选择A列数据
print(df['A'])

运行结果：

0    1
1    2
2    3
Name: A, dtype: int64

4.2 过滤满足条件的数据

import pandas as pd

data = {'A': [1, 2, 3], 'B': [4, 5, 6], 'C': [7, 8, 9]}
df = pd.DataFrame(data)

# 筛选A列大于1的行数据
print(df[df['A'] > 1])

运行结果：

   A  B  C
1  2  5  8
2  3  6  9

5. 数据处理和操作

在实际应用中，我们经常需要对数据进行各种操作和处理，包括数据排序、合并、替换等。下面介绍几个常用的函数：

5.1 数据排序

import pandas as pd

data = {'A': [3, 1, 2], 'B': [6, 4, 5], 'C': [9, 7, 8]}
df = pd.DataFrame(data)

# 按B列升序排序
df = df.sort_values(by='B')
print(df)

运行结果：

5.2 数据合并

import pandas as pd

data1 = {'A': [1, 2, 3], 'B': [4, 5, 6]}
data2 = {'A': [4, 5, 6], 'B': [7, 8, 9]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

# 横向合并
df = pd.concat([df1, df2], axis=1)
print(df)

运行结果：

   A  B  A  B
0  1  4  4  7
1  2  5  5  8
2  3  6  6  9

5.3 数据替换

import pandas as pd

data = {'A': [1, 2, 3], 'B': ['apple', 'banana', 'cherry']}
df = pd.DataFrame(data)

# 替换B列中的值
df['B'] = df['B'].replace({'apple': 'orange', 'banana': 'pear'})
print(df)

运行结果：

   A       B
0  1  orange
1  2    pear
2  3  cherry

6. 数据可视化

pandas提供了数据可视化的功能，可以方便地对数据进行可视化呈现。下面介绍几种常用的数据可视化方法：

6.1 绘制折线图

import pandas as pd
import matplotlib.pyplot as plt

data = {'A': [1, 2, 3, 4, 5], 'B': [6, 7, 8, 9, 10]}
df = pd.DataFrame(data)

df.plot(x='A', y='B', kind='line')
plt.show()

6.2 绘制柱状图

import pandas as pd
import matplotlib.pyplot as plt

data = {'A': ['apple', 'banana', 'cherry'], 'B': [10, 20, 30]}
df = pd.DataFrame(data)

df.plot(x='A', y='B', kind='bar')
plt.show()

6.3 绘制散点图

import pandas as pd
import matplotlib.pyplot as plt

data = {'A': [1, 2, 3, 4, 5], 'B': [6, 7, 8, 9, 10]}
df = pd.DataFrame(data)

df.plot.scatter(x='A', y='B')
plt.show()