Python 正则表达式

正则表达式（通常称为 regex 或RegEx）是一系列字符，定义了一个搜索模式。它们用于匹配字符串中的模式并对其执行各种操作，如替换，提取或分割。

RegEx是文本处理的强大工具，在许多编程语言中，如Python、Java、C#、Perl、JavaScript等被广泛使用。这是开发人员理解和掌握的重要概念，因为它可以简化许多文本处理任务，使代码更简洁和易读。

正则表达式的语法一开始可能会让人困惑，但是通过一些实践，就可以更容易地理解和使用。在RegEx中有几个特殊字符具有特殊含义，例如句点（.），星号（*），问号（?），加号（+）和其他一些字符。这些特殊字符称为元字符，根据使用它们的上下文具有不同的含义。

正则表达式最常见的用途之一是在字符串中搜索特定模式。 RegEx模式定义为字符串，并使用match()方法应用于字符串。如果检测到模式，则该方法生成匹配对象；否则，它将返回None。

例如，下面的代码使用正则表达式在字符串中查找单词“dog”：

import re
text = "The dog is barking."
result = re.search("dog", text)
if result:
    print("Match found!")
else:
    print("No match found.")

输出:

Match found.

RegEx广泛用于在字符串中查找和更改文本。使用sub()方法替换字符串中模式的每个实例。

例如，下面的代码将每个“dog”单词的用法更改为“cat”：

import re
text = "The dog is barking. The dog is sleeping."
result = re.sub("dog", "cat", text)
print(result)

上面代码的输出将是：

The cat is barking. The cat is sleeping.

RegEx可以通过将函数应用于每个部分将字符串分成子字符串数组，以及搜索和替换。使用模式，split()方法可以将文本拆分为子字符串数组。

举个例子，下面的代码按空格将文本分解为一组单词：

import re
text = "The dog is barking."
result = re.split("\s", text)
print(result)

上面代码的输出将是：

['The', 'dog', 'is', 'barking.']

RegEx也可用于验证用户输入。例如，您可以使用RegEx验证电子邮件地址、电话号码或邮政编码。这是Web应用程序的常见用例，其中经常验证用户输入以确保它满足某些条件。

例如，以下代码使用正则表达式验证电子邮件地址：

python
import re
email = "test@example.com"
pattern = "\S+@\S+\.\S+"
result = re.match(pattern, email)
if result:
    print("Valid email address.")
else:
    print("Invalid email address.")

上述代码的输出将是：

Valid email address.

RegEx的另一个常见用途是从字符串中提取信息。例如，您可以使用RegEx从全名字符串中提取名字和姓氏。

例如，以下代码使用正则表达式从全名字符串中提取名字和姓氏：

python
import re
full_name = "John Doe"
pattern = "(\w+) (\w+)"
result = re.match(pattern, full_name)
if result:
    first_name = result.group(1)
    last_name = result.group(2)
    print("First name:", first_name)
    print("Last name:", last_name)
else:
    print("No match found.")

上述代码的输出将是：

First name: John
Last name: Doe

import re
s = 'JavaTpoint: A computer science blog website for students'
m = re.search(r'portal', s) 
print('Start Index:', m.start())
print('End Index:', m.end())

输出：