学习Python Day16 —— 正则表达式

it2025-04-10  26

学习Python Day16 —— 正则表达式

正则表达式是一种工具:一种专门用做字符串匹配的工具,能够在某些情况下能让字符串的处理变得非常简单。

正则表达式的语法

匹配符号

1.普通字符

2.“.” - 匹配任意一个字符

3.\d - 匹配任意一个数字字符

4.\D - 匹配任意一个非数字字符

5.\s - 匹配任意一个空白字符

6.\S - 匹配任意一个非空白字符

7.\w - 匹配任意一个数字、字母或者下划线(不好用,非ASCII码中的字符都可以匹配)

8.[字符集] - 匹配字符集中出现的任意一个字符

9.[^字符集] - 匹配不在字符集中的任意一个字符

注意:^在[]中,如果不是在开头就表示这个符号本身

检测符号

匹配符号要求一个符号必须对应一个字符,会影响字符串长度的描述

检测符号,不会匹配字符,也不会影响字符串长度,它是在匹配成功的前提下对指定位置的字符进行检测

1.\b - 检测是否是单词边界

2.\B - 检测是否不是单词边界

3.^ - 检测是否是字符串开头

4.$ - 检测是否是字符串结尾

匹配次数

1.* - 0或多次(任意次数)

2.+ - 1次或多次(至少1次)

3.? - 0次或1次

4.{}

{N} - 匹配N次 {M,N} - 匹配M到N次 {M,} - 匹配至少M次

5.贪婪和非贪婪

在匹配字数不确定的时候匹配模式就两种:贪婪(默认)和非贪婪(在不确定次数后面加?)

贪婪:在能匹配成功的前提下,匹配次数选最多的(+、、?、{M,N}、{M,}、{,N}) 非贪婪:在能匹配成功的前提下,匹配次数选最少的(+?、?、??、{M,N}?、{M,}?、{,N}?)

分组

1.( )

用法一:整体操作次数 a{2,3} (ab){2,3}

用法二:重复 \M - 重复前面第M个分组中匹配到的内容

用法三:捕获 re.findall在获取子串的时候,如果正则中有分组,只会获取分组匹配到的结果

分支

1.|

正则1|正则2|正则3|… 先用正则1进行匹配,如果匹配成功整个正则就匹配成功;如果失败就用正则2进行匹配, 如果匹配成功整个正则就匹配成功;如果失败就用正则3进行匹配,以此类推…

转义符号

1.\

在在正则中有特殊意义的符号前加\,让这个符号在正则中功能消失

re模块

1.re.compile(正则表达式) - 编译正则表达式,返回正则对象

re_obj = re.compile(r"\d{3}") # 正则表达式对象.fullmatch(字符串) print(re_obj.fullmatch("123")) # re.fullmatch(正则表达式,字符串) print(re.fullmatch(r"\d{3}", "123"))

2.匹配

fullmatch(正则,字符串) - 让整个字符串和正则进行匹配,匹配失败返回None,匹配成功返回匹配对象 match(正则,字符串) - 让字符串开头和正则进行匹配,匹配失败返回None,匹配成功返回匹配对象

3.匹配对象

result = re.match(r"(\d{2})([a-z]{3})", "12acb4561地方") print(result) # 1)匹配到的子串 # 匹配对象.group() / 匹配对象.group(0) - 获取整个正则匹配到的子串 # 匹配对象.group(N) - 获取第N个分组匹配到的子串 print(result.group()) # 12acb print(result.group(1)) # 12 # 2)匹配范围 - 匹配到的子串在原字符串中的下标范围 # 匹配对象.span() print(result.span()) # (0, 5) print(result.span(2)) # (2, 5)

4.查找

search(正则, 字符串) - 在字符串查找第一个满足正则的子串,如果找到了返回匹配对象,找不到返回None findall(正则, 字符串) - 获取字符串中所有满足正则的子串,返回值是列表,列表中的元素是字符串或者元祖,找不到返回空列表 finditer(正则, 字符串)- 获取字符串中所有满足正则的子串,返回值是迭代器,迭代器中的元素是匹配对象

# 2)findall # 没有分组:['123', '456'] print(re.findall(r"\d{3}", "fdvcd123db456考完放假哦")) # 有一个分组:['123', '456'] print(re.findall(r"a(\d{3})", "fdvcda123dba456考完放假哦")) # 有两个或两个以上的分组:[('da', '123'), ('ba', '456')] print(re.findall(r"([a-z]{2})(\d{3})", "fdvcda123dba456考完放假哦")) # 3)finditer

5.切割和替换

split(正则, 字符串) - 将字符串中满足正则的子串作为切割点 sub(正则, 字符串1, 字符串2) - 将字符串2中满足正则的子串全部替换成字符串1

最新回复(0)