Pandas Python：从数据框中获取结构

在本文中，我们将介绍如何使用Pandas Python获取数据框的结构。首先，让我们先来了解一下Pandas。

什么是Pandas？

Pandas是Python中一个常用的数据处理库。它提供了数据结构和数据分析工具，使得我们可以非常方便地将数据导入Python中进行处理、清洗和分析。Pandas最重要的两个数据结构是Series和DataFrame。其中，Series用于处理一维数据集，而DataFrame则用于处理二维数据集。

生成数据框

在学习如何获取数据框结构之前，让我们先来了解一下如何生成一个数据框。通常，我们可以使用Pandas的read_csv()函数将CSV文件导入到Python中，例如：

import pandas as pd

data = pd.read_csv("data.csv")

其中，“data.csv”为我们想要导入的CSV文件名称。这将会生成一个名为“data”的数据框。

此外，我们也可以手动创建一个数据框，并指定列名和数据，例如：

import pandas as pd

data = pd.DataFrame({'姓名': ['小明', '小红', '小李'], '年龄': [18, 20, 22], '性别': ['男', '女', '男']})

print(data)

这将会生成一个由三列数据组成的数据框。

查看数据框结构

一旦我们生成了一个数据框，我们就可以使用一些属性和函数来查看和分析其结构，例如：

.head()

这个函数可以帮助我们查看数据框的前几行，默认为前5行，示例如下：

import pandas as pd

data = pd.read_csv("data.csv")

print(data.head())

.tail()

这个函数与.head()函数类似，可以帮助我们查看数据框的后几行，默认为后5行，示例如下：

import pandas as pd

data = pd.read_csv("data.csv")

print(data.tail())

.shape

这个属性可以帮助我们查看数据框的维度，即其行数和列数，示例如下：

import pandas as pd

data = pd.read_csv("data.csv")

print(data.shape)

.describe()

这个函数可以用来查看数据框中各个数值列的统计信息，包括计数、均值、标准差、最小值、最大值等，示例如下：

import pandas as pd

data = pd.read_csv("data.csv")

print(data.describe())

.info()

这个函数可以用于查看数据框的详细信息，包括列名、列数、每列的类型、非空数据量等，示例如下：

import pandas as pd

data = pd.read_csv("data.csv")

print(data.info())

筛选数据框结构

在这一部分，我们将介绍如何从一个数据框中筛选出我们需要的结构。通常，我们可以使用.iloc[]、.loc[]或者布尔索引来完成相应操作。

iloc[]

这个函数可以帮助我们通过行和列的位置来选择相应的数据。例如，我们可以使用.iloc[0,:]来选择第一行的所有列；.iloc[:,0]来选择第一列的所有行。

import pandas as pd

data = pd.read_csv("data.csv")

print(data.iloc[0,:]) #选择第一行的所有列

print(data.iloc[:,0]) #选择第一列的所有行

loc[]

这个函数可以帮助我们通过行和列的标签名来选择相应的数据。例如，我们可以使用.loc[0,:]来选择行标签为0的所有列；.loc[:,’年龄’]来选择列标签为“年龄”的所有行。

import pandas as pd

data = pd.read_csv("data.csv")

print(data.loc[0,:]) #选择行标签为0的所有列

print(data.loc[:, '年龄']) #选择列标签为“年龄”的所有行

布尔索引

在数据筛选中，我们通常会使用一些条件来筛选我们需要的数据。例如，我们可以根据某一列的数值大小来筛选，示例如下：

import pandas as pd

data = pd.read_csv("data.csv")

# 筛选出年龄大于20岁的行
condition = data['年龄'] > 20
result = data[condition]

print(result)

修改数据框结构

在这一部分，我们将介绍如何修改一个数据框的结构。通常，我们可以使用.assign()函数、.rename()函数和.drop()函数来完成相应操作。

.assign()

这个函数可以帮助我们添加或修改某一列数据，示例如下：

import pandas as pd

data = pd.read_csv("data.csv")

# 添加一列“性别比例”，表示男女比例
data = data.assign(性别比例 = lambda x: x['性别'].apply(lambda y: 1 if y == '男' else 0))

print(data)

.rename()

这个函数可以帮助我们修改某一列的标签名，示例如下：

import pandas as pd

data = pd.read_csv("data.csv")

# 将“姓名”列的标签名改为“姓名（中文）”
data = data.rename(columns={'姓名': '姓名（中文）'})

print(data)

.drop()

这个函数可以帮助我们删除某一列或某几列数据，示例如下：

import pandas as pd

data = pd.read_csv("data.csv")

# 删除“性别”列和“国籍”列
data = data.drop(columns=['性别', '国籍'])

print(data)

总结

在本文中，我们介绍了如何使用Pandas Python获取数据框的结构，并且提供了一些列子来帮助读者理解。同时，我们还介绍了如何从一个数据框中筛选出我们需要的结构以及如何修改数据框结构。Pandas是一个非常方便的数据处理工具，它提供了很多强大的函数和方法，可以使数据处理变得更加高效和简单。如果您对Pandas Python有兴趣，可以尝试使用它处理您自己的数据，希望您可以收获到更多的经验和知识。