pandas filter where true|极客教程

pandas filter where true

在使用pandas进行数据处理时，经常需要根据条件筛选数据。其中，通过where方法可以根据条件筛选出符合条件的数据，类似于SQL中的WHERE语句。本文将详细介绍如何使用where方法来实现数据筛选及其在数据处理中的应用。

pandas中的`where`方法

在pandas中，where方法的作用是根据条件对DataFrame或Series进行筛选，并返回一个新的DataFrame或Series，其中符合条件的数据保留，不符合条件的数据则被替换为特定的值（默认为NaN）。

where方法的基本语法如下：

DataFrame.where(cond, other=nan, inplace=False)

参数解释：

cond: 条件，可以是布尔型的Series，DataFrame或可调用对象；
other: 不满足条件的元素替换的值，默认为NaN；
inplace: 是否在原DataFrame或Series上进行修改，默认为False，即不修改原数据。

示例数据

为了演示where方法的使用，我们首先创建一个示例数据：

import pandas as pd
import numpy as np

data = {
    'A': [1, 2, 3, 4],
    'B': [5, 6, 7, 8],
    'C': [9, 10, 11, 12]
}
df = pd.DataFrame(data)
print(df)

运行结果如下：

   A  B   C
0  1  5   9
1  2  6  10
2  3  7  11
3  4  8  12

我们将以这个示例数据为基础，通过where方法来演示数据的筛选。

简单的条件筛选

首先，我们使用简单的条件来对数据进行筛选。假设我们要筛选出A列大于2的行：

result = df.where(df['A'] > 2)
print(result)

运行结果如下：

     A    B     C
0  NaN  NaN   NaN
1  NaN  NaN   NaN
2  3.0  7.0  11.0
3  4.0  8.0  12.0

可以看到，只有第三行和第四行满足条件，其他行被替换为NaN。

替换不满足条件的值

除了默认将不满足条件的元素替换为NaN外，我们也可以指定替换的值。比如，不满足条件的元素替换为0：

result = df.where(df['A'] > 2, 0)
print(result)

运行结果如下：

   A  B   C
0  0  0   0
1  0  0   0
2  3  7  11
3  4  8  12

可以看到，不满足条件的元素替换为了0。

使用查询条件函数

除了直接使用条件表达式外，我们还可以通过定义查询条件函数来更灵活地实现数据筛选。比如，筛选出A列的奇数行：

result = df.where(lambda x: x.index % 2 == 0)
print(result)

运行结果如下：

     A    B     C
0  1.0  5.0   9.0
1  NaN  NaN   NaN
2  3.0  7.0  11.0
3  NaN  NaN   NaN

可以看到，只有奇数行的数据保留，偶数行的数据被替换为NaN。

在原数据上进行修改

如果想在原数据上进行修改，可以设置inplace=True。比如，将小于5的元素替换为10：

df.where(df < 5, 10, inplace=True)
print(df)

运行结果如下：

    A   B   C
0  10  10  10
1  10  10  10
2  10  10  10
3  10   8  12

可以看到，小于5的元素都被替换为了10。

结语

通过本文的介绍，我们了解了在pandas中如何使用where方法实现数据的筛选，以及在数据处理中的应用场景。where方法可以帮助我们根据条件轻松筛选数据，让数据处理更加灵活高效。

pandas filter where true