Python DataFrame where|极客教程

Python DataFrame where

在Python中，DataFrame是pandas库中的一个重要数据结构，它类似于Excel表格，可以用来存储和处理数据。DataFrame中的where方法可以根据指定的条件过滤数据，只保留满足条件的行或列。本文将详细介绍Python中DataFrame的where方法的用法和示例代码。

1. 安装pandas库

在使用DataFrame之前，首先需要安装pandas库。可以使用pip命令来安装pandas：

pip install pandas

2. 创建DataFrame

在使用DataFrame的where方法之前，我们先创建一个简单的DataFrame作为示例。下面是一个包含姓名、年龄和城市的DataFrame：

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}

df = pd.DataFrame(data)
print(df)

Output:

Python DataFrame where

3. 使用DataFrame的where方法

DataFrame的where方法可以根据指定的条件过滤数据。下面是一个简单的示例，只保留年龄大于30的行：

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data)

filtered_df = df.where(df['Age'] > 30)
print(filtered_df)

Output:

Python DataFrame where

可以看到，只有年龄大于30的行保留了下来，不满足条件的行被替换为NaN。

4. 使用dropna方法删除NaN值

在上面的示例中，我们使用了DataFrame的where方法过滤数据，但是结果中包含了NaN值。可以使用dropna方法删除这些NaN值：

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data)
filtered_df = filtered_df.dropna()
print(filtered_df)

可以看到，删除了包含NaN值的行，只保留了满足条件的行。

5. 多条件过滤

除了单个条件外，也可以使用多个条件来过滤数据。下面是一个示例，只保留年龄大于30且城市为”Chicago”的行：

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data)
filtered_df = df.where((df['Age'] > 30) & (df['City'] == 'Chicago'))
filtered_df = filtered_df.dropna()
print(filtered_df)

Output:

Python DataFrame where

可以看到，只有满足所有条件的行被保留了下来。

6. 使用query方法过滤数据

除了where方法外，还可以使用query方法来过滤数据。query方法可以直接传入条件表达式，更加简洁。下面是一个示例，只保留年龄大于30的行：

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data)
filtered_df = df.query('Age > 30')
print(filtered_df)

Output:

Python DataFrame where

可以看到，只有年龄大于30的行被保留了下来。

7. 使用isin方法过滤数据

isin方法可以用来判断某一列的值是否在指定的列表中，可以用来过滤数据。下面是一个示例，只保留城市为”New York”或”Chicago”的行：

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data)
filtered_df = df[df['City'].isin(['New York', 'Chicago'])]
print(filtered_df)

Output:

Python DataFrame where

可以看到，只有城市为”New York”或”Chicago”的行被保留了下来。

8. 使用字符串方法过滤数据

在DataFrame中，可以使用字符串方法来过滤数据。下面是一个示例，只保留姓名中包含字母”A”的行：

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data)
filtered_df = df[df['Name'].str.contains('A')]
print(filtered_df)

Output:

Python DataFrame where

可以看到，只有姓名中包含字母”A”的行被保留了下来。

9. 使用自定义函数过滤数据

除了以上方法外，还可以使用自定义函数来过滤数据。下面是一个示例，只保留年龄为奇数的行：

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data)
filtered_df = df[df['Age'].apply(lambda x: x % 2 != 0)]
print(filtered_df)

Output:

Python DataFrame where

可以看到，只有年龄为奇数的行被保留了下来。

10. 使用loc方法过滤数据

除了以上方法外，还可以使用loc方法来过滤数据。loc方法可以根据行标签和列标签来选择数据。下面是一个示例，只保留年龄大于30的行和姓名列：

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data)
filtered_df = df.loc[df['Age'] > 30, ['Name']]
print(filtered_df)

Output:

Python DataFrame where

可以看到，只有年龄大于30的行和姓名列被保留了下来。

11. 使用at方法过滤数据

除了以上方法外，还可以使用at方法来过滤数据。at方法可以根据行标签和列标签来选择单个元素。下面是一个示例，选择年龄大于30的第三行的姓名：

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data)
name = df.at[df[df['Age'] > 30].index[1], 'Name']
print(name)

Output:

Python DataFrame where

可以看到，选择了年龄大于30的第三行的姓名。

12. 使用eval方法过滤数据

eval方法可以用来计算表达式，也可以用来过滤数据。下面是一个示例，只保留年龄大于30的行：

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data)
filtered_df = df.eval('Age > 30')
print(filtered_df)

Output:

Python DataFrame where

可以看到，返回了一个布尔Series，表示每一行是否满足条件。

13. 使用numpy库过滤数据

除了pandas库提供的方法外，还可以结合numpy库来过滤数据。下面是一个示例，只保留年龄大于30的行：

import numpy as np
import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}

df = pd.DataFrame(data)
filtered_df = df[np.array(df['Age'] > 30)]
print(filtered_df)

Output:

Python DataFrame where

可以看到，只有年龄大于30的行被保留了下来。

14. 使用eval方法结合query方法过滤数据

可以结合eval方法和query方法来过滤数据。下面是一个示例，只保留年龄大于30的行：

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}

filtered_df = df.query('Age > 30').eval('City == "Chicago"')
print(filtered_df)

可以看到，返回了一个布尔Series，表示每一行是否满足条件。

15. 使用eval方法结合字符串方法过滤数据

可以结合eval方法和字符串方法来过滤数据。下面是一个示例，只保留姓名中包含字母”A”的行：

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data)
filtered_df = df.eval('Name.str.contains("A")')
print(filtered_df)

Output:

Python DataFrame where

可以看到，返回了一个布尔Series，表示每一行是否满足条件。

16. 使用eval方法结合自定义函数过滤数据

可以结合eval方法和自定义函数来过滤数据。下面是一个示例，只保留年龄为奇数的行：

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data)
filtered_df = df.eval('Age.apply(lambda x: x % 2 != 0)')
print(filtered_df)

可以看到，返回了一个布尔Series，表示每一行是否满足条件。

17. 使用eval方法结合isin方法过滤数据

可以结合eval方法和isin方法来过滤数据。下面是一个示例，只保留城市为”New York”或”Chicago”的行：

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data)
filtered_df = df.eval('City.isin(["New York", "Chicago"])')
print(filtered_df)

Output:

Python DataFrame where

可以看到，返回了一个布尔Series，表示每一行是否满足条件。

18. 使用eval方法结合loc方法过滤数据

可以结合eval方法和loc方法来过滤数据。下面是一个示例，只保留年龄大于30的行和姓名列：

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data)
filtered_df = df.eval('Age > 30').loc[:, ['Name']]
print(filtered_df)

可以看到，只有年龄大于30的行和姓名列被保留了下来。

19. 使用eval方法结合at方法过滤数据

可以结合eval方法和at方法来过滤数据。下面是一个示例，选择年龄大于30的第三行的姓名：

import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data)
name = df.eval('Age > 30').at[df[df['Age'] > 30].index[1], 'Name']
print(name)

可以看到，选择了年龄大于30的第三行的姓名。

20. 使用eval方法结合numpy库过滤数据

可以结合eval方法和numpy库来过滤数据。下面是一个示例，只保留年龄大于30的行：

import numpy as np
import pandas as pd

data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'],
        'Age': [25, 30, 35, 40],
        'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']}
df = pd.DataFrame(data)

filtered_df = df.eval('np.array(Age) > 30')
print(filtered_df)

可以看到，返回了一个布尔Series，表示每一行是否满足条件。

通过以上示例代码，我们详细介绍了Python中DataFrame的where方法的用法和不同过滤数据的方式。