Python 新建DataFrame

在数据分析和机器学习领域,DataFrame 是一种非常常用的数据结构,它可以用来存储和处理二维数据。Python 中有许多第三方库可以用来创建和操作 DataFrame,最流行的是 pandas 库。在本文中,我们将介绍如何使用 pandas 库在 Python 中新建 DataFrame。
安装 pandas 库
首先,我们需要安装 pandas 库。你可以使用 pip 指令在命令行中安装 pandas:
pip install pandas
安装完成后,我们就可以开始使用 pandas 来新建 DataFrame 了。
新建一个空的 DataFrame
要新建一个空的 DataFrame,可以直接调用 pandas 中的 DataFrame 构造函数,不传入任何参数即可:
import pandas as pd
df = pd.DataFrame()
print(df)
运行上述代码,会输出一个空的 DataFrame:
Empty DataFrame
Columns: []
Index: []
新建一个带有数据的 DataFrame
除了新建空的 DataFrame 外,我们也可以新建一个带有数据的 DataFrame。最常见的方法是传入一个字典或二维数组作为参数。下面是一些示例代码:
从字典新建 DataFrame
data = {'Name': ['Alice', 'Bob', 'Cathy', 'David'],
'Age': [25, 30, 35, 40]}
df = pd.DataFrame(data)
print(df)
运行上述代码,会输出包含姓名和年龄信息的 DataFrame:
Name Age
0 Alice 25
1 Bob 30
2 Cathy 35
3 David 40
从二维数组新建 DataFrame
data = [['Alice', 25],
['Bob', 30],
['Cathy', 35],
['David', 40]]
df = pd.DataFrame(data, columns=['Name', 'Age'])
print(df)
运行上述代码,同样会输出包含姓名和年龄信息的 DataFrame。
新建一个带有索引的 DataFrame
除了列名外,我们还可以指定行索引。下面是一个示例代码:
data = {'Name': ['Alice', 'Bob', 'Cathy', 'David'],
'Age': [25, 30, 35, 40]}
df = pd.DataFrame(data, index=['A', 'B', 'C', 'D'])
print(df)
运行上述代码,会输出带有自定义索引的 DataFrame:
Name Age
A Alice 25
B Bob 30
C Cathy 35
D David 40
新建一个从 CSV 文件读取的 DataFrame
除了直接创建 DataFrame,我们也可以从外部文件读取数据创建 DataFrame。常见的文件格式之一是 CSV 文件。下面是一个示例代码:
df = pd.read_csv('data.csv')
print(df)
假设我们有一个名为 data.csv 的 CSV 文件,包含如下数据:
Name,Age
Alice,25
Bob,30
Cathy,35
David,40
运行上述代码,会输出从 CSV 文件读取到的 DataFrame。
总结
在本文中,我们介绍了如何使用 pandas 库在 Python 中新建 DataFrame。我们学习了如何新建空的 DataFrame、带有数据的 DataFrame、带有索引的 DataFrame,以及从 CSV 文件读取的 DataFrame。DataFrame 是数据分析和机器学习中非常重要的数据结构,掌握如何创建和操作 DataFrame 对我们日常的工作和研究非常有帮助。
极客教程