Pandas：如何在pandas中创建一个数据框的视图

在本文中，我们将介绍如何在pandas中创建一个数据框的视图。Pandas是一种强大的Python数据分析库，它允许我们以类似于SQL的方式处理数据，这使得数据分析变得更加方便和简单。

Pandas中的数据框

在pandas中，数据框是一种核心数据结构，它是一个二维表格，其中每列可以是不同的数据类型（例如，字符串、浮点数、整数等）。数据框的每一列被称为序列（Series），每个序列都有一个名称。

考虑以下示例代码，它演示了如何使用pandas创建一个数据框：

import pandas as pd

data = {'name': ['Alice', 'Bob', 'Charlie', 'David'],
        'age': [25, 32, 18, 47],
        'country': ['USA', 'Canada', 'UK', 'USA']}
df = pd.DataFrame(data)
print(df)

这将输出以下数据框：

       name  age country
0     Alice   25     USA
1       Bob   32  Canada
2   Charlie   18      UK
3     David   47     USA

我们可以看到，该数据框有三列（name、age和country），每列有四行。每列的类型是自动推断的，name和country是字符串，age是整数。

创建数据框的视图

在pandas中，我们可以使用视图来查看数据框的子集，而无需复制或修改原始数据。这在处理大型数据集时非常有用，因为可以避免使用大量内存来存储多个版本的数据框。

创建数据框视图的最简单方法是使用.loc[]方法。该方法允许我们通过行和列标签索引子集。例如，要查看数据框中所有行的“name”和“age”列，我们可以使用以下代码：

view = df.loc[:, ['name', 'age']]
print(view)

这将输出以下视图：

      name  age
0    Alice   25
1      Bob   32
2  Charlie   18
3    David   47

可以看到，该视图只包含两列（name和age），而不是三列。此外，它只是查看原始数据框的子集，而不是复制它。如果我们修改视图，原始数据框将不会受到影响。

我们还可以使用以下常用的.loc[]语法来创建不同类型的视图：

df.loc[row_selector, column_selector]：选择所有标记行和列。
df.loc[row_selector]：选择所有标记行。
df.loc[:, column_selector]：选择所有标记列。
df.loc[row_selector, column_name]：选择指定行和列中的所有元素。
df.loc[row_selector, column_list]：选择指定行和列。

例如，以下代码可创建一个视图，该视图只显示原始数据框中第1和第3行，并且只包含age列：

view = df.loc[[0, 2], 'age']
print(view)

将输出：

0    25
2    18
Name: age, dtype: int64

注意，输出是一个序列而不是数据框，因为我们只选择了一列。

请注意，如果我们想选择多个列，必须将列名作为列表传递。例如，以下代码可创建一个视图，该视图只显示原始数据框中第1和第3行，并且包含name和age列：

view = df.loc[[0, 2], ['name', 'age']]
print(view)

将输出：

      name  age
0    Alice   25
2  Charlie   18

总结

在本文中，我们讨论了如何在pandas中创建一个数据框的视图。我们了解了什么是数据框，以及如何使用loc[]方法创建数据框视图。视图允许我们方便地查看数据框的子集，而无需复制或修改原始数据，这在处理大型数据集时非常有用。我们还介绍了常用的.loc[]语法，可以根据行和列标签选择不同类型的视图。现在您可以在pandas中使用视图来轻松处理数据集的子集。