Python 正则表达式字符串匹配

在本文中，我们将介绍Python中的正则表达式字符串匹配。正则表达式是一种强大的模式匹配工具，它可以用来查找、替换和提取字符串中的特定模式。Python内置了re模块，提供了丰富的正则表达式操作功能。

阅读更多：Python 教程

什么是正则表达式？

正则表达式是一种用于匹配字符串的模式。它由一系列字符和特殊字符组成，在字符串中搜索指定的模式。正则表达式可以用于各种用途，如验证输入、提取文本、替换文本等。

在Python中，正则表达式的模式使用特殊字符和语法来定义。下面是一些常用的正则表达式特殊字符：

.：匹配除换行符以外的任意字符。
*：匹配前一个字符的零次或多次出现。
+：匹配前一个字符的一次或多次出现。
?：匹配前一个字符的零次或一次出现。
[]：匹配方括号内的任意一个字符。
()：捕获分组，用于提取匹配的部分。

正则表达式的基本用法

使用Python中的re模块，我们可以进行正则表达式的匹配操作。下面是一些常用的re模块方法：

re.match(pattern, string)：从字符串的起始位置开始匹配模式。
re.search(pattern, string)：在字符串中搜索匹配模式的第一个位置。
re.findall(pattern, string)：返回所有匹配模式的结果列表。
re.sub(pattern, repl, string)：将匹配模式的所有部分替换为指定的字符串。

假设我们有一个字符串，要找到里面所有匹配IP地址的部分。我们可以使用正则表达式来实现：

import re

string = "我的IP地址是192.168.1.1，你的IP地址是192.168.1.2。"

pattern = r"\b\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\b"
matches = re.findall(pattern, string)

print(matches)  # ['192.168.1.1', '192.168.1.2']

通过正则表达式\b\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\b，我们可以匹配到字符串中的所有IP地址。

正则表达式的语法

正则表达式的语法非常灵活，可以根据具体的需求定义各种模式。下面是一些常见的正则表达式语法：

.：匹配除换行符以外的任意字符。
\d：匹配任意一个数字字符。
\D：匹配任意一个非数字字符。
\w：匹配任意一个字母、数字或下划线字符。
\W：匹配任意一个非字母、数字或下划线字符。
\s：匹配任意一个空白字符，包括空格、制表符、换行符等。
\S：匹配任意一个非空白字符。
^：匹配字符串的起始位置。
$：匹配字符串的结束位置。

正则表达式还支持量词的使用，用于指定模式的重复次数。下面是一些常用的量词：

*：匹配前一个字符的零次或多次出现。
+：匹配前一个字符的一次或多次出现。
?：匹配前一个字符的零次或一次出现。
{n}：匹配前一个字符的恰好n次出现。
{n,}：匹配前一个字符的至少n次出现。
{n,m}：匹配前一个字符的至少n次、最多m次出现。

例如，要匹配所有的邮箱地址，可以使用正则表达式[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}：

import re

string = "我的邮箱是abc@def.com，你的邮箱是123@456.com。"

pattern = r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}"
matches = re.findall(pattern, string)

print(matches)  # ['abc@def.com', '123@456.com']

通过正则表达式[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}，我们可以匹配到字符串中的所有邮箱地址。

正则表达式的高级用法

在正则表达式中，还有一些高级的用法，可以更加灵活地匹配字符串。

分组捕获

正则表达式中的分组用于将匹配的部分进行捕获，以便后续使用。使用小括号()来定义分组。例如，我们可以使用正则表达式来提取字符串中的日期：

import re

string = "今天是2022年10月1日，明天是2022年10月2日。"

pattern = r"(\d{4})年(\d{1,2})月(\d{1,2})日"
matches = re.findall(pattern, string)

for match in matches:
    print(f"年份：{match[0]}，月份：{match[1]}，日期：{match[2]}")

通过正则表达式(\d{4})年(\d{1,2})月(\d{1,2})日，我们可以提取到字符串中的所有日期，包括年份、月份和日期。

非贪婪匹配

默认情况下，正则表达式采用贪婪匹配，即尽可能多地匹配字符。如果我们想要采用非贪婪匹配，可以在量词后面加上?。例如，我们可以使用非贪婪匹配来提取HTML标签中的内容：

import re

string = "<p>这是一个段落。</p><p>这是另一个段落。</p>"

pattern = r"<p>(.*?)</p>"
matches = re.findall(pattern, string)

for match in matches:
    print(match)

通过正则表达式<p>(.*?)</p>，我们可以提取到字符串中的所有段落内容。

零宽断言

正则表达式还支持零宽断言，用于匹配指定位置的字符，而不消耗字符串中的字符。常用的零宽断言包括：

(?=pattern)：匹配后面跟着指定模式的位置。

import re

string = "abc123def456ghi789"

# 正向零宽断言，匹配包含数字的单词（字符之间有空格）
pattern = r"\b\w+(?=\d)\b"
matches = re.findall(pattern, string)
print(matches)  # ['abc123', 'def456', 'ghi789']

# 反向零宽断言，匹配以数字结尾的单词（字符之间有空格）
pattern = r"\b\w+(?<=\d)\b"
matches = re.findall(pattern, string)
print(matches)  # ['abc123', 'def456', 'ghi789']

# 负向零宽断言，匹配不包含数字的单词（字符之间有空格）
pattern = r"\b\w+(?!\d)\b"
matches = re.findall(pattern, string)
print(matches)  # []

# 负向零宽断言，匹配不以数字结尾的单词（字符之间有空格）
pattern = r"\b\w+(?<!\d)\b"
matches = re.findall(pattern, string)
print(matches)  # []

# 匹配包含数字的单词（字符之间没有空格）
pattern = r"\b(\w+\d+)\b"
matches = re.findall(pattern, string)
print(matches)  # ['abc123def456ghi789']

通过使用正则表达式的零宽断言，我们可以精确地匹配指定位置的字符，从而更灵活地处理字符串。