Python遍历DataFrame|极客教程

Python遍历DataFrame

在数据分析和处理过程中，Pandas库是一个非常重要的工具，它提供了强大而灵活的数据结构和数据分析工具，其中最常用的数据结构之一就是DataFrame。DataFrame是一个二维标记数据结构，类似于Excel表格，由行和列组成。在对数据进行操作和分析时，经常需要遍历DataFrame，对其中的数据进行操作和处理。本文将详细介绍如何使用Python遍历DataFrame以及一些常用的遍历方法。

创建DataFrame

在开始遍历DataFrame之前，我们首先需要创建一个DataFrame。下面是一个简单的示例代码，创建一个包含学生信息的DataFrame：

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [20, 21, 22, 23],
        'Grade': [85, 90, 88, 95]}

df = pd.DataFrame(data)
print(df)

运行以上代码，我们会得到如下输出：

      Name  Age  Grade
0    Alice   20     85
1      Bob   21     90
2  Charlie   22     88
3    David   23     95

这样我们就创建了一个简单的包含学生信息的DataFrame，接下来我们将介绍如何遍历这个DataFrame以及一些常用的遍历方法。

遍历DataFrame

方法一：使用iterrows()方法

iterrows()方法可以迭代遍历DataFrame的每一行，返回每一行的索引和数据。下面是一个示例代码：

for index, row in df.iterrows():
    print(index, row['Name'], row['Age'], row['Grade'])

运行以上代码，我们会得到以下输出：

0 Alice 20 85
1 Bob 21 90
2 Charlie 22 88
3 David 23 95

方法二：使用iteritems()方法

iteritems()方法可以迭代遍历DataFrame的每一列，返回每一列的标签和数据。下面是一个示例代码：

for label, content in df.iteritems():
    print(label)
    for data in content:
        print(data)

运行以上代码，我们会得到以下输出：

Name
Alice
Bob
Charlie
David

Age
20
21
22
23

Grade
85
90
88
95

方法三：使用apply()方法

apply()方法可以对DataFrame的每一行或每一列应用指定的函数。下面是一个示例代码，计算学生的总成绩：

def calculate_total(row):
    return row['Grade'] * 2

df['Total'] = df.apply(calculate_total, axis=1)
print(df)

运行以上代码，我们会得到以下输出：

      Name  Age  Grade  Total
0    Alice   20     85    170
1      Bob   21     90    180
2  Charlie   22     88    176
3    David   23     95    190

方法四：使用lambda函数

除了定义函数外，我们还可以使用lambda函数对DataFrame进行遍历。下面是一个示例代码，计算学生的平均成绩：

df['Average'] = df.apply(lambda row: (row['Grade'] + row['Total']) / 2, axis=1)
print(df)

运行以上代码，我们会得到以下输出：

      Name  Age  Grade  Total  Average
0    Alice   20     85    170    127.5
1      Bob   21     90    180    135.0
2  Charlie   22     88    176    132.0
3    David   23     95    190    142.5