Python 正则表达式：高效文本处理的利器

Travis Tang

2024-07-21

前言

大家好！最近我在整理一批历史资料时，发现手动处理这些文本不仅耗时，而且容易出错。就在我苦恼的时候，我的朋友小张给我介绍了 Python 中的正则表达式。说实话，一开始我对这个 “高深莫测” 的工具还挺排斥的，但经过几天的摸索，我发现它真是个高效的利器，能快速帮我解决文本处理中的各种难题。这次我就跟大家分享一下 Python 正则表达式的使用技巧，让你也能在文本处理工作中游刃有余！希望大家读完后能够关注我的博客，收藏这篇文章哦！

什么是正则表达式

正则表达式（Regular Expression，简称 regex）是一种用来匹配字符串的模式。它可以用简洁的语法来描述复杂的字符串规则，从而实现对文本的搜索、替换、拆分等操作。

Python 中的正则表达式模块

在 Python 中，re 模块提供了对正则表达式的支持。我们可以通过这个模块来创建、匹配和操作正则表达式。

导入模块

import re

基本语法和使用技巧

匹配字符

. 匹配任意字符（除了换行符）
^ 匹配字符串的开头
$ 匹配字符串的结尾
* 匹配 0 次或多次前面的字符
+ 匹配 1 次或多次前面的字符
? 匹配 0 次或 1 次前面的字符
{n} 匹配 n 次前面的字符
{n,} 匹配至少 n 次前面的字符
{n,m} 匹配 n 到 m 次前面的字符

示例：提取电话号码

假设我们有一段文本，其中包含一些电话号码。我们想提取出所有的电话号码。

import re

text = "我的电话是123-456-7890，你可以联系我。她的电话是987-654-3210。"
pattern = r"\d{3}-\d{3}-\d{4}"
matches = re.findall(pattern, text)

print(matches)  # 输出: ['123-456-7890', '987-654-3210']

示例：替换敏感信息

有时候，我们需要对文本中的敏感信息进行替换，比如将电话号码中的中间四位数替换为星号。

import re

text = "我的电话是123-456-7890，你可以联系我。她的电话是987-654-3210。"
pattern = r"(\d{3}-)\d{3}(-\d{4})"
result = re.sub(pattern, r"\1***\2", text)

print(result)  # 输出: 我的电话是123-***-7890，你可以联系我。她的电话是987-***-3210。

示例：拆分字符串

正则表达式还可以用来拆分字符串，比如根据标点符号拆分文本。

import re

text = "Python是非常强大的编程语言。它在数据处理、网络编程、Web开发等领域都有广泛应用。"
pattern = r"[，。]"
result = re.split(pattern, text)

print(result)  # 输出: ['Python是非常强大的编程语言', '它在数据处理', '网络编程', 'Web开发等领域都有广泛应用', '']

实际应用案例

示例：从 HTML 中提取数据

假设我们有一个包含 HTML 代码的字符串，我们想从中提取出所有的链接地址。

import re

html = '''
<a href="http://example.com">Example</a>
<a href="https://example.org">Example Org</a>
<a href="http://example.net">Example Net</a>
'''
pattern = r'href="([^"]+)"'
matches = re.findall(pattern, html)

print(matches)  # 输出: ['http://example.com', 'https://example.org', 'http://example.net']

示例：验证输入格式

我们可以用正则表达式来验证用户输入的格式，比如检查邮箱地址是否有效。

import re

def is_valid_email(email):
    pattern = r"^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$"
    return re.match(pattern, email) is not None

print(is_valid_email("test@example.com"))  # 输出: True
print(is_valid_email("invalid-email"))     # 输出: False

总结

正则表达式是 Python 中一个强大的文本处理工具，能让我们以简洁的方式完成复杂的文本操作。通过本文的介绍，相信大家已经掌握了基本的正则表达式语法和一些常见的使用技巧。希望你能在实际工作中充分利用这些技巧，提高工作效率。如果你觉得这篇文章对你有帮助，请记得关注我的博客，并收藏这篇文章！让我们一起在编程的道路上不断前行！