pandas新建数据框|极客教程

pandas新建数据框

在数据分析和数据处理过程中，pandas库是Python中非常常用的工具之一。pandas提供了丰富的数据结构和数据处理功能，其中最常用的数据结构之一就是DataFrame，即数据框。数据框类似于Excel表格，是二维的、可以存储不同类型数据的数据结构，在数据分析和处理过程中起到非常重要的作用。

本文将详细介绍如何使用pandas库新建数据框，包括从字典、列表和外部数据文件中创建数据框，以及数据框的基本操作。

从字典新建数据框

字典是Python中常用的数据结构，通过字典可以方便地构建数据框。我们可以将字典的key作为数据框的列名，将value作为列的数据。下面是一个示例代码，演示如何从字典新建数据框：

import pandas as pd

# 创建一个字典
data = {'A': [1, 2, 3, 4],
        'B': ['a', 'b', 'c', 'd'],
        'C': [True, False, True, False]}

# 从字典新建数据框
df = pd.DataFrame(data)

# 打印数据框
print(df)

运行上述代码，我们会得到如下输出：

   A  B      C
0  1  a   True
1  2  b  False
2  3  c   True
3  4  d  False

可以看到，原先的字典被成功转换为了一个数据框，其中字典的key作为列名，value作为列的数据。

从列表新建数据框

除了从字典新建数据框外，我们还可以从列表新建数据框。在这种情况下，列表中的每个元素都代表一行数据。下面是一个示例代码，演示如何从列表新建数据框：

import pandas as pd

# 创建一个列表
data = [[1, 'a', True],
        [2, 'b', False],
        [3, 'c', True],
        [4, 'd', False]]

# 定义列名
columns = ['A', 'B', 'C']

# 从列表新建数据框
df = pd.DataFrame(data, columns=columns)

# 打印数据框
print(df)

运行上述代码，我们会得到如下输出：

   A  B      C
0  1  a   True
1  2  b  False
2  3  c   True
3  4  d  False

可以看到，通过指定列名，我们成功将列表转换为了一个数据框。

从外部数据文件新建数据框

在实际的数据分析中，我们经常需要从外部数据文件中读取数据并新建数据框。pandas提供了多种方法来读取外部数据文件，包括CSV、Excel、JSON等格式。下面是一个示例代码，演示如何从CSV文件中读取数据并新建数据框：

import pandas as pd

# 从CSV文件读取数据
df = pd.read_csv('data.csv')

# 打印数据框
print(df)

运行上述代码，我们会得到从CSV文件中读取的数据框内容。

数据框的基本操作

在新建了数据框之后，我们经常需要对数据框进行各种操作，例如增加、删除列，选取特定的行或列，进行数据筛选和统计分析等。下面是一些常用的数据框操作示例：

选取列

# 选取列A和B
df[['A', 'B']]

增加新列

# 增加新列D
df['D'] = [True, False, True, False]

删除列

# 删除列C
df = df.drop(columns=['C'])

选取行

# 选取第一行和第三行
df.iloc[[0, 2]]

根据条件筛选数据

# 筛选出A大于2的行
df[df['A'] > 2]

数据统计

# 计算每列的平均值
df.mean()

通过以上示例代码，我们可以实现对数据框的基本操作，更好地处理和分析数据。

结语

本文详细介绍了如何使用pandas库新建数据框，包括从字典、列表和外部数据文件中创建数据框，以及数据框的基本操作。数据框在数据分析和处理中起到至关重要的作用，掌握数据框的创建和操作方法对于数据分析人员非常重要。

pandas新建数据框