pandas where index|极客教程

pandas where index

在使用pandas进行数据处理时，经常会遇到需要根据特定条件筛选数据的情况。pandas中提供了where方法来实现这一功能，通过该方法可以根据指定条件对DataFrame或Series中的元素进行筛选，同时保留原始数据结构的形状。

本文将详细介绍pandas中where方法的用法，重点讲解如何在筛选数据的同时保持索引的完整性，并给出示例代码配以运行结果进行说明。

简介

pandas是Python中常用的数据分析库，提供了丰富的数据结构和数据处理方法。其中，where方法是一个重要的数据筛选工具，可以根据指定条件对数据进行过滤，筛选出符合条件的元素，同时保持原始数据的结构。

在pandas中，where方法有两种用法：

基本用法：根据条件对DataFrame或Series中的元素进行筛选。
保留索引：通过传入other参数，可以保持索引的完整性。

基本用法

首先，我们来看一下pandas中where方法的基本用法。假设有一个包含学生成绩的DataFrame:

import pandas as pd

data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'Math': [85, 90, 75, 80],
    'Chinese': [88, 92, 78, 85],
    'English': [80, 85, 78, 75]
}

df = pd.DataFrame(data)
print(df)

输出为：

      Name  Math  Chinese  English
0    Alice    85       88       80
1      Bob    90       92       85
2  Charlie    75       78       78
3    David    80       85       75

现在，我们想筛选出数学成绩大于等于80分的学生，可以使用where方法实现：

filtered_df = df.where(df['Math'] >= 80)
print(filtered_df)

输出为：

    Name  Math  Chinese  English
0  Alice  85.0     88.0     80.0
1    Bob  90.0     92.0     85.0
2    NaN   NaN      NaN      NaN
3  David  80.0     85.0     75.0

可以看到，通过where方法筛选出了数学成绩大于等于80分的学生，不符合条件的行会被填充为NaN。

保留索引

在上面的示例中，通过where方法筛选出的DataFrame中并不包含所有的索引，出现了缺失的现象。为了保持索引的完整性，可以通过传入other参数来填充缺失值。

举例来说，如果要筛选出英语成绩大于等于80分的学生，并保持索引的完整性，可以这样做：

filtered_df = df.where(df['English'] >= 80, other=df)
print(filtered_df)

输出为：

      Name  Math  Chinese  English
0    Alice  85.0     88.0     80.0
1      Bob  90.0     92.0     85.0
2  Charlie   NaN      NaN      NaN
3      NaN   NaN      NaN      NaN

可以看到，通过传入other=df参数，保持了索引的完整性，但将不符合条件的行的数据填充为NaN。