pandas模糊匹配|极客教程

pandas模糊匹配

在数据处理和分析过程中，经常会遇到需要进行模糊匹配的情况。在处理文本数据时，常常需要查找包含特定字符串的记录，但又不希望完全匹配，而是希望找到包含部分关键词的记录。这时就需要使用模糊匹配的方法来实现。

1. 使用pandas中的str.contains进行模糊匹配

pandas提供了str.contains方法来实现模糊匹配，该方法可以判断一列中的字符串是否包含指定的子字符串，并返回一个布尔值的Series。

下面是一个示例，假设我们有一个包含商品信息的DataFrame，我们想要找出商品名称中包含”apple”的记录：

import pandas as pd

data = {'product': ['apple iphone', 'banana', 'orange', 'apple watch', 'watermelon']}
df = pd.DataFrame(data)

result = df[df['product'].str.contains('apple')]
print(result)

运行以上代码，输出如下：

        product
0  apple iphone
3   apple watch

可以看到，我们成功找出了商品名称中包含”apple”的记录。

2. 使用正则表达式进行更复杂的模糊匹配

除了简单的子字符串匹配外，我们还可以使用正则表达式进行更复杂的模糊匹配。pandas的str.contains方法也支持传入正则表达式作为匹配条件。

下面是一个示例，假设我们要找出商品名称中包含”apple”或”watch”的记录：

import pandas as pd

data = {'product': ['apple iphone', 'banana', 'orange', 'apple watch', 'watermelon']}
df = pd.DataFrame(data)

result = df[df['product'].str.contains('apple|watch', regex=True)]
print(result)

运行以上代码，输出如下：

        product
0  apple iphone
3   apple watch

可以看到，我们成功找出了商品名称中包含”apple”或”watch”的记录。

3. 使用str.contains的na参数处理缺失值

在进行模糊匹配时，有时候我们会遇到包含缺失值的情况。pandas的str.contains方法提供了na参数，可以用于处理缺失值。

下面是一个示例，假设我们要找出商品名称中包含”apple”的记录，但商品名称中存在缺失值：

import pandas as pd
import numpy as np

data = {'product': ['apple iphone', np.nan, 'orange', 'apple watch', 'watermelon']}
df = pd.DataFrame(data)

result = df[df['product'].str.contains('apple', na=False)]
print(result)

运行以上代码，输出如下：

        product
0  apple iphone
3   apple watch

可以看到，我们成功找出了商品名称中包含”apple”的记录，并且忽略了缺失值。

4. 使用str.contains的case参数进行大小写敏感的匹配

有时候我们需要进行大小写敏感的模糊匹配，此时可以使用str.contains方法的case参数来指定大小写敏感性。

下面是一个示例，假设我们要找出商品名称中包含”Apple”的记录：

import pandas as pd

data = {'product': ['apple iphone', 'banana', 'orange', 'Apple watch', 'watermelon']}
df = pd.DataFrame(data)

result = df[df['product'].str.contains('Apple', case=True)]
print(result)

运行以上代码，输出如下：