pandas 多条件模糊匹配两个表|极客教程

pandas 多条件模糊匹配两个表

在数据处理过程中，我们经常会遇到需要对两个表进行多条件模糊匹配的情况。使用Python的pandas库可以很方便地实现这一功能。在本文中，我们将通过一个简单的示例来详细讲解如何使用pandas进行多条件模糊匹配两个表。

示例背景

假设我们有两个表，一个是“员工信息表”（employee_info），包含员工的姓名和部门信息；另一个是“部门信息表”（department_info），包含部门的名称和部门主管的姓名。我们想要通过模糊匹配的方式，找出符合以下条件的员工信息：

员工所在部门名称包含“技术”关键词；
员工姓名或员工所在部门名称包含“经理”关键词。

接下来，我们将使用pandas库来实现这一功能。

示例代码

首先，我们需要导入pandas库，并创建示例数据。

import pandas as pd

# 创建员工信息表
data_employee = {
    '姓名': ['张三', '李四', '王五', '赵六', '钱七'],
    '部门': ['技术部', '财务部', '市场部', '技术开发部', '人力资源部']
}

employee_info = pd.DataFrame(data_employee)

# 创建部门信息表
data_department = {
    '部门名称': ['技术部', '财务部', '市场部', '技术开发部', '人力资源部'],
    '部门主管': ['张三', '李四', '王五', '赵六', '钱七']
}

department_info = pd.DataFrame(data_department)

print("员工信息表：")
print(employee_info)
print("\n部门信息表：")
print(department_info)

运行上述代码后，我们可以得到员工信息表和部门信息表的内容如下：

员工信息表：

姓名	部门
张三	技术部
李四	财务部
王五	市场部
赵六	技术开发部
钱七	人力资源部

部门信息表：

部门名称	部门主管
技术部	张三
财务部	李四
市场部	王五
技术开发部	赵六
人力资源部	钱七

接下来，我们将使用pandas库进行多条件模糊匹配操作。

# 多条件模糊匹配
result = pd.merge(employee_info, department_info, left_on='部门', right_on='部门名称', how='inner')

result = result[(result['部门'].str.contains('技术')) | 
                (result['姓名'].str.contains('经理')) | 
                (result['部门名称'].str.contains('经理'))]

print("\n符合条件的员工信息：")
print(result)

运行上述代码后，我们可以得到符合条件的员工信息如下：