正则表达式 - 简介学习笔记

什么是正则表达式?

正则表达式(英文:Regular Expression,简称:regex、regexp或RE)是一种用于匹配字符串的工具,它可以用来描述字符组成规律的模式。在计算机科学领域中,正则表达式被广泛应用于各种文本处理的场景中,如搜索引擎、文本编辑器、编译器等。

如何使用正则表达式?

通常情况下,我们可以使用正则表达式来做以下事情:

  • 验证输入数据是否符合某种格式要求;
  • 从文本中提取符合特定模式的内容;
  • 替换文本中符合特定模式的内容。

正则表达式的语法

正则表达式由普通字符和元字符构成。

  • 普通字符:指任何不是元字符的字符,如字母、数字、空格等。
  • 元字符:指正则表达式中具有特殊意义的字符或字符组合。

常用的元字符有:

  • \d:匹配任意一个数字字符;
  • \w:匹配任意一个单词字符,即字母、数字或下划线;
  • \s:匹配任意一个空白字符,包括空格、制表符、换页符等;
  • .:匹配除换行符外的任意字符;
  • *:匹配前面的子表达式零次或多次;
  • +:匹配前面的子表达式一次或多次;
  • ?:匹配前面的子表达式零次或一次;
  • {m}:匹配前面的子表达式恰好m次;
  • {m,}:匹配前面的子表达式至少m次;
  • {m,n}:匹配前面的子表达式至少m次,最多n次。

实例

现在我们来看一个简单的实例:如何从一句话中匹配出所有的数字?

对于这个问题,我们可以使用正则表达式中的元字符\d来表示数字。具体的实现代码如下:

Copy Code
import re text = 'Hello, I am 25 years old today!' pattern = r'\d+' result = re.findall(pattern, text) print(result)

输出结果为:

Copy Code
['25']

可以看到,我们成功地从文本中提取出了数字 25

以上就是正则表达式的简介学习笔记,希望能够对大家有所帮助。