pandas框架|极客教程

pandas框架

在数据处理和分析领域，pandas是一个非常强大的python库。它提供了各种数据结构，如Series和DataFrame，以及各种功能，使得处理和分析数据变得更加简单和高效。

为什么选择pandas

在处理数据时，pandas有许多优点，这是我们选择pandas的原因之一。下面是一些选择pandas的理由：

数据结构

pandas提供了两种主要的数据结构：Series和DataFrame。

Series是一维数组，类似于Excel中的列。每个Series对象都由index和values组成。
DataFrame是一个二维表格，类似于Excel中的电子表格。它由多个Series组成，每个Series的index相同，可以看作是行。

import pandas as pd

# 创建一个Series对象
data = {'a': 1, 'b': 2, 'c': 3}
s = pd.Series(data)
print(s)

输出：

a    1
b    2
c    3
dtype: int64

数据处理

pandas有许多强大的功能，使得数据处理变得更加简单和高效。比如，pandas可以对数据进行筛选、排序、合并等操作。

# 创建一个DataFrame对象
data = {'name': ['Alice', 'Bob', 'Charlie'],
        'age': [25, 30, 35],
        'city': ['New York', 'Los Angeles', 'Chicago']}
df = pd.DataFrame(data)
print(df)

输出：

      name  age         city
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago

缺失值处理

pandas可以处理数据中的缺失值，使得分析更加准确和完整。

# 创建一个含有缺失值的DataFrame对象
data = {'name': ['Alice', 'Bob', 'Charlie', None],
        'age': [25, None, 35, 40],
        'city': ['New York', 'Los Angeles', None, 'Chicago']}
df = pd.DataFrame(data)
print(df)

输出：

      name   age         city
0    Alice  25.0     New York
1      Bob   NaN  Los Angeles
2  Charlie  35.0         None
3     None  40.0      Chicago

数据可视化

pandas内置支持数据可视化功能，可以通过matplotlib库进行绘图，使得数据分析结果更加直观和易于理解。

# 绘制柱状图
df['age'].plot(kind='bar')
plt.show()

pandas基本功能

pandas有许多基本功能，使得数据处理更加方便和高效。下面是一些常用的基本功能：

读取和保存数据

pandas可以读取和保存各种格式的数据，如csv、excel等。

# 从csv文件读取数据
df = pd.read_csv('data.csv')

# 保存数据到excel文件
df.to_excel('data.xlsx')

数据选择和切片

pandas可以方便地对数据进行选择和切片操作。

# 选择某一列数据
print(df['name'])

# 切片操作
print(df.iloc[1:3])

数据聚合

pandas可以对数据进行分组和聚合操作。

# 按城市分组，并计算每个城市的平均年龄
print(df.groupby('city')['age'].mean())

数据合并

pandas可以对多个数据集进行合并操作。

# 合并两个DataFrame对象
df1 = pd.DataFrame({'name': ['Alice', 'Bob'], 'age': [25, 30]})
df2 = pd.DataFrame({'name': ['Charlie', 'David'], 'age': [35, 40]})
print(pd.concat([df1, df2]))