pandas for循环|极客教程

pandas for循环

在数据处理过程中，经常需要对数据进行循环操作，对每个数据进行特定的处理。在Python中，可以使用pandas库来处理数据，其中包含了强大的数据结构和数据操作工具，特别适合用来处理表格型数据。本文将详细介绍如何使用pandas库进行循环操作。

1. 创建DataFrame

首先，我们需要创建一个DataFrame对象，它是pandas中最常用的数据结构，类似于Excel中的表格。可以通过传入字典或列表的方式来创建DataFrame。下面是一个示例：

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data)
print(df)

运行结果如下：

      Name  Age         City
0    Alice   25     New York
1      Bob   30  Los Angeles
2  Charlie   35      Chicago
3    David   40      Houston

我们成功创建了一个包含姓名、年龄和城市的DataFrame。

2. for循环遍历DataFrame

接下来，我们将介绍如何使用for循环遍历DataFrame中的数据。可以使用iterrows()方法来遍历DataFrame中的每一行数据。下面是一个示例：

for index, row in df.iterrows():
    print(row['Name'], row['Age'], row['City'])

运行结果如下：

Alice 25 New York
Bob 30 Los Angeles
Charlie 35 Chicago
David 40 Houston

通过for循环和iterrows()方法，我们成功遍历并打印出了DataFrame中的每一行数据。

3. 使用apply()方法

除了使用for循环遍历DataFrame外，还可以使用apply()方法对DataFrame中的每一行数据进行处理。apply()方法接受一个函数作为参数，可以对每一行数据应用这个函数。下面是一个示例：

def add_age(row):
    return row['Age'] + 5

df['NewAge'] = df.apply(add_age, axis=1)
print(df)

运行结果如下：

      Name  Age         City  NewAge
0    Alice   25     New York      30
1      Bob   30  Los Angeles      35
2  Charlie   35      Chicago      40
3    David   40      Houston      45

我们成功添加了一个名为NewAge的新列，该列的数值为每个人的年龄加5。

4. 使用iteritems()方法

除了对每一行数据进行处理外，有时还需要对每一列数据进行处理。可以使用iteritems()方法来遍历DataFrame中的每一列数据。下面是一个示例：

for column, values in df.iteritems():
    print(column)
    print(values)
    print()

运行结果如下：

Name
0      Alice
1        Bob
2    Charlie
3      David
Name: Name, dtype: object

Age
0    25
1    30
2    35
3    40
Name: Age, dtype: int64

City
0       New York
1    Los Angeles
2        Chicago
3        Houston
Name: City, dtype: object

通过iteritems()方法，我们成功遍历并打印出了DataFrame中的每一列数据。