Python如何遍历DataFrame|极客教程

Python如何遍历DataFrame

1. 背景介绍

DataFrame是Pandas库中最重要的数据结构之一，用于处理结构化和标签数据。在数据科学和数据分析领域，DataFrame是常用的数据容器。在进行数据处理和分析时，我们经常需要对DataFrame进行遍历。本文将详细介绍在Python中如何遍历DataFrame，并提供示例代码和运行结果。

2. 遍历DataFrame的方式

在Python中，有多种方式可以遍历DataFrame，包括使用iterrows()、itertuples()、iteritems()和apply()等方法。

2.1 使用iterrows()

iterrows()方法允许我们使用迭代器遍历DataFrame的每一行。对于每一行，迭代器返回一个行索引和包含行数据的Series对象。

下面是使用iterrows()遍历DataFrame的示例代码：

import pandas as pd

# 创建一个示例DataFrame
data = {'Name': ['Tom', 'Nick', 'John', 'Sam'],
        'Age': [20, 25, 30, 35],
        'City': ['New York', 'Paris', 'London', 'Tokyo']}
df = pd.DataFrame(data)

# 遍历DataFrame
for index, row in df.iterrows():
    print(f"Index: {index}")
    print(f"Name: {row['Name']}")
    print(f"Age: {row['Age']}")
    print(f"City: {row['City']}")
    print("-----------------------")

运行结果：

Index: 0
Name: Tom
Age: 20
City: New York
-----------------------
Index: 1
Name: Nick
Age: 25
City: Paris
-----------------------
Index: 2
Name: John
Age: 30
City: London
-----------------------
Index: 3
Name: Sam
Age: 35
City: Tokyo
-----------------------

2.2 使用itertuples()

itertuples()方法返回一个命名元组，其中包含每一行的索引和数据。相对于iterrows()，itertuples()的性能更好，因为使用元组而不是Series对象。

下面是使用itertuples()遍历DataFrame的示例代码：

import pandas as pd

# 创建一个示例DataFrame
data = {'Name': ['Tom', 'Nick', 'John', 'Sam'],
        'Age': [20, 25, 30, 35],
        'City': ['New York', 'Paris', 'London', 'Tokyo']}
df = pd.DataFrame(data)

# 遍历DataFrame
for row in df.itertuples():
    print(f"Index: {row.Index}")
    print(f"Name: {row.Name}")
    print(f"Age: {row.Age}")
    print(f"City: {row.City}")
    print("-----------------------")

运行结果与前述示例相同。

2.3 使用iteritems()

iteritems()方法允许我们使用迭代器遍历DataFrame的每一列。对于每一列，迭代器返回一个列名和包含列数据的Series对象。

下面是使用iteritems()遍历DataFrame的示例代码：

import pandas as pd

# 创建一个示例DataFrame
data = {'Name': ['Tom', 'Nick', 'John', 'Sam'],
        'Age': [20, 25, 30, 35],
        'City': ['New York', 'Paris', 'London', 'Tokyo']}
df = pd.DataFrame(data)

# 遍历DataFrame
for column, values in df.iteritems():
    print(f"Column: {column}")
    print(f"Values: {values.tolist()}")
    print("-----------------------")

运行结果：

Column: Name
Values: ['Tom', 'Nick', 'John', 'Sam']
-----------------------
Column: Age
Values: [20, 25, 30, 35]
-----------------------
Column: City
Values: ['New York', 'Paris', 'London', 'Tokyo']
-----------------------

2.4 使用apply()

apply()方法允许我们对DataFrame进行逐行或逐列的函数运算。我们可以自定义一个函数，并通过apply()方法应用到数据中的每一个元素。

下面是使用apply()方法遍历DataFrame的示例代码：

import pandas as pd

# 自定义一个函数
def print_row(row):
    print(f"Name: {row['Name']}")
    print(f"Age: {row['Age']}")
    print(f"City: {row['City']}")
    print("-----------------------")

# 创建一个示例DataFrame
data = {'Name': ['Tom', 'Nick', 'John', 'Sam'],
        'Age': [20, 25, 30, 35],
        'City': ['New York', 'Paris', 'London', 'Tokyo']}
df = pd.DataFrame(data)

# 遍历DataFrame
df.apply(print_row, axis=1)

运行结果与前述示例相同。

3. 总结

在Python中，我们可以使用iterrows()、itertuples()、iteritems()和apply()等方法来遍历DataFrame。这些方法允许我们逐行或逐列地遍历DataFrame，并处理每一个行或列的数据。根据实际需要选择合适的方法进行遍历，在数据处理和分析中能够提高代码的效率和可读性。