正则表达式 - 简介学习笔记
什么是正则表达式?
正则表达式(英文:Regular Expression,简称:regex、regexp或RE)是一种用于匹配字符串的工具,它可以用来描述字符组成规律的模式。在计算机科学领域中,正则表达式被广泛应用于各种文本处理的场景中,如搜索引擎、文本编辑器、编译器等。
如何使用正则表达式?
通常情况下,我们可以使用正则表达式来做以下事情:
- 验证输入数据是否符合某种格式要求;
- 从文本中提取符合特定模式的内容;
- 替换文本中符合特定模式的内容。
正则表达式的语法
正则表达式由普通字符和元字符构成。
- 普通字符:指任何不是元字符的字符,如字母、数字、空格等。
- 元字符:指正则表达式中具有特殊意义的字符或字符组合。
常用的元字符有:
\d
:匹配任意一个数字字符;\w
:匹配任意一个单词字符,即字母、数字或下划线;\s
:匹配任意一个空白字符,包括空格、制表符、换页符等;.
:匹配除换行符外的任意字符;*
:匹配前面的子表达式零次或多次;+
:匹配前面的子表达式一次或多次;?
:匹配前面的子表达式零次或一次;{m}
:匹配前面的子表达式恰好m次;{m,}
:匹配前面的子表达式至少m次;{m,n}
:匹配前面的子表达式至少m次,最多n次。
实例
现在我们来看一个简单的实例:如何从一句话中匹配出所有的数字?
对于这个问题,我们可以使用正则表达式中的元字符\d
来表示数字。具体的实现代码如下:
Copy Codeimport re
text = 'Hello, I am 25 years old today!'
pattern = r'\d+'
result = re.findall(pattern, text)
print(result)
输出结果为:
Copy Code['25']
可以看到,我们成功地从文本中提取出了数字 25
。
以上就是正则表达式的简介学习笔记,希望能够对大家有所帮助。