正则表达式：简介|极客教程

正则表达式：简介

正则表达式，又称正则化或规则表达式，是对字符串中字符或符号的一种描述。在计算机科学中，它被广泛地应用于文本匹配、搜索以及替换操作。

在正式学习正则表达式之前，先了解一些相关概念：

字符集：一系列字符的集合，如字母表（a-z，A-Z）或数字（0-9）。
特殊字符：许多字符在正则表达式中具有特殊的含义（例如 . 表示匹配任何一个字符）。
定位符：指定某一字符串被匹配的位置（例如 ^ 表示字符串的开头位置，$ 表示字符串的结尾位置）。

以下是一些正则表达式的实例：

/abc/        # 匹配字符串中连续出现的 "abc"
/hello\sworld/  # 匹配字符串中 "hello" 和 "world" 之间可能存在的空格字符
/^[a-z]+$/   # 匹配纯小写字母的字符串
/\d{10}/     # 匹配包含10个数字字符的字符串

最后，建议使用一些在线的正则表达式验证工具，例如 rubular.com，regex101.com 等，来辅助你在学习和使用正则表达式时进行实践。

正则表达式的基本语法

特殊字符

接下来，我们来逐一介绍正则表达式中的特殊字符及其含义。

.：匹配任何一个字符。

/./             # 匹配任何一个字符
/.at/           # 匹配单词中最后一个字母是 "a" 的单词

*：匹配前面的字符的零个或多个实例。

/bo* /          # 匹配单词 "bo"、 "boo" 、 "booo" 等
/12*/           # 匹配包含一个 "1" 后面跟零个或多个 "2" 的字符串，如 "10"、 "12"、 "122" 等

+：匹配前面的字符的一个或多个实例。

/hel+o/         # 匹配"hello"、"helo"、"helllo" 等
/12+/           # 匹配包含一个 "1" 后面跟一个或多个 "2" 的字符串，如 "12"、 "122"、 "12222" 等

?：匹配前面的字符的零个或1个实例。

/colo?r/        # 匹配 "color", "colour" 等
/\d\d?/         # 匹配一个包含一个数字和一个可选的后续数字的字符串，例如 "1" 或 "10"

^：匹配字符串的开始位置。

/^hello/        # 匹配字符串的开头是 "hello" 的字符串，如 "hello world"、"hello there" 等

$：匹配字符串的结尾位置。

/world$/        # 匹配字符串的结尾是 "world" 的字符串，如 "hello world" 等

[]：匹配括号中包含的任何一个字符。

/[abc]/         # 匹配任何包含 "a"、 "b"或 "c" 的字符串
/[0-9]/         # 匹配任何包含数字字符的字符串

[^]：匹配任意不包含在括号中的字符。

/[^abc]/        # 匹配除了 "a"、 "b" 或 "c" 之外的任何一个字符
/[^0-9]/          # 匹配不包含数字的任何一个字符

\：用于引用后面的特殊字符。

/\./           # 匹配包含 "." 的字符串
/\^/           # 匹配包含 "^" 的字符串

()：用于分组的符号。这可以将多个字符结合在一起并将其视为一个整体。

/(ab)+/        # 匹配任意数量的 "ab" 组合，如 "ab"、 "abab"、 "ababab"等
/(ab|cd)/      # 匹配包含 "ab" 或 "cd" 的字符串

使用量词符

量词符用于规定匹配的重复次数。以下是量词符的一些示例：

{n}：匹配前面的字符恰好出现 n 次。

/a{2}/         # 匹配字符串中连续出现的两个字母 "a"
/\d{5}/        # 匹配包含五个数字的字符串

{n,}：匹配前面的字符至少出现 n 次。

/a{2,}/        # 匹配包含两个或多个字母 "a" 的字符串，如 "aa"、 "aaa" 等
/\d{5,}/       # 匹配至少包含五个数字的字符串

{n,m}：匹配前面的字符至少出现 n 次，最多出现 m 次。

/a{2,5}/       # 匹配包含 2 到 5 个 "a" 的字符串，如 "aa"、 "aaa"、 "aaaa" 或 "aaaaa"
/\d{3,5}/      # 匹配包含 3 到 5 个数字的字符串

使用位置符

位置符是用于指定匹配字符串位置的特殊字符。下面是一些常见位置符的示例：

^：匹配开头。

/^hello/       # 匹配以 "hello" 开头的字符串

$：匹配结尾。

/world$/       # 匹配以 "world" 结尾的字符串

\b：匹配单词边界。

/\bhello\b/    # 匹配包含单词 "hello" 的字符串，单词必须是一个单独的单词，例如 "hello" 或 "hello,"，但不是 "helloworld"

\B：匹配非单词边界。

/\Bhello\B/    # 匹配包含 "hello" 的字符串，但 "hello" 必须是与其他字符相接的一部分，例如 "ohelloo"、"hello123"、"!hello?"等

正则表达式实例

在这个章节，我们将演示如何用正则表达式来匹配和搜索。

检查密码的强度

一个常见的编程问题是检查密码的强度。为了实现这个过程，我们将使用正则表达式来搜索密码是否符合以下条件之一：

密码包含至少一个小写字母
密码包含至少一个大写字母
密码包含至少一个数字
密码包含至少一个特殊字符（例如：! @＃$％^＆*）

代码示例：

import re

def check_password_strength(password):
    if re.search(r'[a-z]', password) is None:
        return False
    elif re.search(r'[A-Z]', password) is None:
        return False
    elif re.search(r'\d', password) is None:
        return False
    elif re.search(r'[!@#$%^&*]', password) is None:
        return False
    else:
        return True

在上面的代码中，我们使用了 re.search() 函数来搜索字符之间是否存在匹配项。如果搜索结果为 None，则表示未找到匹配项。

该函数的测试代码如下：

print(check_password_strength('Hello123!')) # True
print(check_password_strength('HelloWorld')) # False，缺少特殊字符
print(check_password_strength('hello123')) # False，缺少大写字母
print(check_password_strength('HELLO123!')) # False，缺少小写字母

搜索网址

另一个使用正则表达式的常见任务是在文本中查找网址。下面是一个演示如何使用正则表达式来搜索网址的示例代码：

import re

text = 'Welcome to our website: http://www.example.com'

pattern = r'https?://[^\s]+'

urls = re.findall(pattern, text)

print(urls) # ['http://www.example.com']

在上面的代码中，我们使用 re.findall() 函数来查找文本中的网址。正则表达式 https?://[^\s]+ 用于匹配 http 或 https 模式的网址。其中 [^\s]+ 匹配所有不包含空格字符的字符。

替换文本中的单词

还可以使用正则表达式来批量替换文本中的单词。下面是一个演示如何使用正则表达式来替换文本中的单词的示例：

import re

text = 'The quick brown fox jumps over the lazy dog'

new_text = re.sub(r'fox', 'cat', text)

print(new_text) # 'The quick brown cat jumps over the lazy dog'

在上面的代码中，我们使用 re.sub() 函数来替换单词。正则表达式 fox 匹配单词”fox”，然后我们将其替换为”cat”。