pandas 出现的第一个
什么是pandas
pandas是一种提供高性能,易于使用的数据结构和数据分析工具的Python库。它通常用于处理结构化数据,例如表格数据,以及时间序列数据。pandas提供了许多功能,包括用于数据清洗、数据转换、数据分析等。
在pandas中,有两个主要的数据结构:Series和DataFrame。Series是一维标记数组,类似于Python中的列表。DataFrame是一个二维标记数据结构,类似于关系数据库中的表。
pandas的历史
pandas最早由Wes McKinney在2008年创建,并于2009年初次公开发布。它最初是为金融数据分析而设计的,但随着其功能的不断丰富,pandas逐渐成为Python数据科学领域中不可或缺的工具之一。
第一个示例:创建一个DataFrame
让我们从一个简单的示例开始,创建一个包含一些学生信息的DataFrame。
import pandas as pd
data = {'姓名': ['张三', '李四', '王五'],
'年龄': [20, 21, 22],
'成绩': [90, 88, 95]}
df = pd.DataFrame(data)
print(df)
运行结果:
姓名 年龄 成绩
0 张三 20 90
1 李四 21 88
2 王五 22 95
在这个示例中,我们首先导入pandas库,然后创建一个字典data,包含学生的姓名、年龄和成绩。接着使用pd.DataFrame()函数将字典data转换为DataFrame,并打印出来。
第一个示例:数据筛选
接着我们来演示如何在DataFrame中进行数据筛选。
import pandas as pd
data = {'姓名': ['张三', '李四', '王五'],
'年龄': [20, 21, 22],
'成绩': [90, 88, 95]}
df = pd.DataFrame(data)
# 筛选成绩大于90的学生
df_filtered = df[df['成绩'] > 90]
print(df_filtered)
运行结果:
姓名 年龄 成绩
2 王五 22 95
在这个示例中,我们首先创建了一个DataFrame df,然后使用条件筛选出成绩大于90的学生信息,并将结果打印出来。
第一个示例:数据分组
接下来我们演示如何对DataFrame进行分组操作。
import pandas as pd
data = {'学科': ['数学', '数学', '英语', '英语'],
'班级': ['A', 'B', 'A', 'B'],
'成绩': [90, 85, 88, 92]}
df = pd.DataFrame(data)
# 按学科进行分组,并计算平均成绩
df_grouped = df.groupby('学科')['成绩'].mean()
print(df_grouped)
运行结果:
学科
数学 87.5
英语 90.0
Name: 成绩, dtype: float64
在这个示例中,我们首先创建了一个DataFrame df,然后使用groupby()方法按学科对数据进行分组,并计算每个学科的平均成绩。
总结
在本文中,我们介绍了pandas这个强大的数据分析工具,并演示了如何使用pandas进行数据处理,包括创建DataFrame、数据筛选、数据分组等操作。