day16-常用正则表达式笔记

it2024-01-05 93

========================== day16-正则表达式 =============================

第一节：正则表达式

"""""" from re import fullmatch, search, findall # 什么是正则表达式： ''' 正则表达式是一种工具：一种专门用作字符串匹配的工具，它能够在某些情况下让字符串的处理变得非常简单。 fallmatch(正则表达式，字符串0) - 判断正则表达式是否和字符串完全匹配，如果不匹配，返回none。 ''' # tel = input('请输入手机号') tel = '12345678912' if len(tel) == 11: pass else: print("手机号码不正确") re_str = r'1[3-9]\d{9}' result = fullmatch(re_str, tel) print(result) # 2.正则表达式的语法（通用的） # ======================匹配符号======================== # 普通字符 """ 普通字符在正则表达式中表示这个符号本身 """ ### . - 匹配任意一个字符 # 匹配一个字符串有三个字符，分别是a,b,c re_str = r'abc' result = fullmatch(re_str, 'abc') print(result) # 匹配一个长度是3的字符串，第一个字符是任意字符，后面是bc。 re_str = r'.bc' result = fullmatch(re_str, '好bc') print(result) re_str = r'a..c' result = fullmatch(re_str, 'aooc') print(result) ### /d - 匹配任意一个数字字符 re_str = r'\d\d\d' # \d 数字字符 result = fullmatch(re_str, '799') print(result) re_str = r'\d\dabc' result = fullmatch(re_str, '45abc') print(result) ### \D - 匹配任意一个非数字字符 re_str = r'\d\D\D\d' result = fullmatch(re_str, '8hk0') print(result) ### \s - 匹配任意一个空白字符 """空白字符：空格, \n(换行) , \t(制表符)""" re_str = r'\d\D \n' result = fullmatch(re_str, '8h \n') print(result) ### \S - 匹配任意非空白字符 """空白字符：空格, \n(换行) , \t(制表符)""" re_str = r'\d\D\S\S' result = fullmatch(re_str, '8h5n') print(result) ### \w - 匹配任意一个数字、字母、或者下划线（只能说ASCLL码表中的字符） ### [字符集] - 匹配字符集中出现的任意一个字符 """: 注意，一个[]只能匹配一个字符： [abc] - 匹配一个字符是a或者b或者c [\dabc] - 匹配一个字符是数字或者是a或者是b或者是c [1 - 9] - 匹配一到九的数字字符 [2-5abc] - 匹配2到5加abc的数字字符 [a - z] - 匹配任意一个小写字母 [a-zA-Z] - 匹配任意一个字母 [\da-zA-Z] -匹配字母，数字，下划线 [\u4e00-\u9fa5] - 匹配范围内任意一个中文字符 """ re_str = r'[abc]123' print(fullmatch(re_str, 'c123')) re_str = r'[a你c]123' print(fullmatch(re_str, '你123')) re_str = r'[\da你c]123' print(fullmatch(re_str, '1123')) re_str = r'[\dxx=]mn' print(fullmatch(re_str, 'xmn')) re_str = '[a-zA-Z]' # 注意不能 A - a 范围有错 print(fullmatch(re_str, 'B')) # 注意 '-'中两个字符之间才有特殊意义 re_str = r'[-abc]12-3' print(fullmatch(re_str, '-12-3')) ### [^字符集] - 匹配不在字符集中的任意一个字符 """ [^abc] - 匹配除了abc以外的任意一个字符 [^\dxy] - 匹配除了xy和数字以外的任意一个字符 [^\u4e00-\u9fa5] - 匹配范围内任意一个中文字符 [^a-z] - 匹配除了小写字母以外的任意一个字符 """ re_str = r'[\u4e00-\u9fa5]' print(fullmatch(re_str, '我')) # 注意：^在[]中，如果没有在开头就表示这符号本身 print(fullmatch(r'[a^bc]123', '^123')) print('=============================') # =======================检测符号======================== # 匹配符号要求i一个符号必须对应一个字符，会影响字符串长度的描述： # 检测符号，不会匹配字符，也不会影响字符串长度，他是在匹配成功的前提下对指定位置的字符进行检测。 ### \b 检测是否是单词边界:是边界返回字符串，不是边界就返回None """ 所有能够区分出两个不同单词的符号。例如：空白符号，标点符号，字符串开头或者字符串结尾。 """ print(fullmatch(r'next\b\s123', 'next 123')) ### \B检测是否不是单词边界,不是边界返回字符串，是边界就返回None print(fullmatch(r'next\B123', 'next123')) ### ^ - 检测是否是字符串开头。 re_str = r'abc^123' print(fullmatch(re_str, 'abc123')) print(fullmatch(r'^abc123', 'abc123')) re_str = r'^\d\d' print(fullmatch(re_str, '23')) print(search(re_str, 'ab23c123')) print('===================================') ### $(多哪儿) - 检测是否是字符串结尾，不是结尾返回none。 re_str = r'\d\d$' print(fullmatch(re_str, '23')) print(search(re_str, 'ab23c31323')) ### *字符：匹配多个字符 re_str = r'a[A-Z]*c' print(fullmatch(re_str, 'ac')) print(fullmatch(re_str, 'aKc')) print(fullmatch(re_str, 'aKOKc')) ### + - 1次或者多次（至少一次）,作用于前面的字符。 re_str = "\d+" print('++++', fullmatch(re_str, '64411121')) ### ? - 0次或者一次 # 练习：写一个正则能匹配任意正整数：23， 3490， +87， 023（None） re_str = "[+]?[1-9]\d*" print(fullmatch(re_str, '23')) print(fullmatch(re_str, '3490')) print(fullmatch(re_str, '+87')) print(fullmatch(re_str, '023')) re_str = "[+]?" print(fullmatch(re_str, '+')) print(fullmatch(re_str, '')) print('======================') ### {} """ {N} - 匹配N次 {M,N} - 匹配到M到N次 {M,} - 匹配至少M次 {,N} - 匹配最多N次 """ re_str = r"\d{3}" print(fullmatch(re_str, '456')) # 练习：要求只能包含有字母和数字，范围在3到6位。 re_str = r"[\da-zA-Z]{3,6}" print(fullmatch(re_str, '546sad')) print(fullmatch(r'a{3,}123', 'aaaa123')) print(fullmatch(r'a{,3}123', 'aaaa123')) # 贪婪和非贪婪的问题 """ 在匹配次数不确定的时候匹配模式有两种：贪婪(默认)和非贪婪(在不确定次数后面加?) 贪婪：在匹配成功的条件下，次数越多越好。(+、*、?、{M,N}、{M,}、{,N}) 非贪婪：在匹配成功的条件下，次数越少越好。(在不确定的次数后面加?) ?? 一次或者零次的非贪婪(+?、*?、??、{M,N}?、{M,}?、{,N}?) """ print("============================================") re_str = r'a.+b' # 贪婪模式 print(search(re_str, 'xxambpppd实施b==')) re_str = r'a.+?b' # 非贪婪模式 print(search(re_str, 'xxambpppd实施b==')) re_str = r'《.+》' print(search(re_str, '<meta name="description" content="《王者荣耀》是腾讯天美工作室推出的英雄竞技手游，不是一个人的王者，而是团队的荣耀！5v5王者峡谷PVP对战，领略英雄竞技的酣畅淋漓！更有边境突围、五军对决等丰富的游戏模式，体验突破传统、英雄竞技新形态！">')) # ============= 分组 ================ # 用法一：操作次数 print(fullmatch(r'(ab){2,3}', 'ababab')) print(fullmatch(r'([a-z]{2}\d{2}){2,3}', 'ab12ab12')) # 用法二：重复 # \M - 重复前面第M个分组中匹配到的内容。 re_str = r'(\d)\1abc\1' print(fullmatch(re_str, '88abc8')) re_str = r'(\d)\1abc\1ab(c)\2aa\2' print(fullmatch(re_str, '88abc8abccaac')) # 用法三：捕获 # re中的findall在获取字串的时候，如果正则中有分组，只会获取分组匹配到的结果。 re_str = r'a\d{2}b' print(findall(re_str, 'mama55b5a78b')) re_str = r'a(\d{2})b' print(findall(re_str, 'mama55b5a78b')) # ======================= 分支 ====================== """ 正则1|正则2|正则3|... 轮流匹配，匹配成功就结束匹配，匹配失败对比下一个正则表达式进行匹配，直到匹配完最后一个正则表达式，如果还未匹配成功，就匹配失败。""" # 示例：写一个正则能够匹配一个字符串：abc后面是三个数字或者abc是三个大写的字母。 re_str = r'abc\d{3}|[A-Z]{3}' print(fullmatch(re_str, 'abc234')) re_str = r'abc(\d{3}|[A-Z]{3})' print(fullmatch(re_str, 'abcFRD')) #===================== 转移符合 ========================= """ 在正则表达式中有特殊意义的符号前加\,让这个符号在正则表达式中的功能消失。 """ re_str = r'\d{2}\.\d{2}' print(fullmatch(re_str, '23.45')) re_str = r'\d\+' print(fullmatch(re_str, '8+')) ### 注意：在正则中独立存在有特殊意义的符号，放到[]中，他的意义会自动消失。 re_str = r'[ab\]cc]122' print(fullmatch(re_str, ']122')) print(fullmatch(re_str, 'b122')) re_str = r'\\122' print(fullmatch(re_str, r'\122'))

第二节：二进制数据的转换

"""""" # 1.二进制类型/字节（bytes） # 2.其他数据转二进制：bytes() # 字符串转二进制：字符串.encode(encoding='utf-8') print(bytes(18)) # print(bytes(12.5)) #浮点数不能转换浮点型->字符串->二进制 print(bytes(True)) print(bytes('abc', encoding='utf-8')) print(bytes([10, 20, 30])) # print(bytes['abc', '123'])。 list1 = [100, 'abc', 12.5] b1 = bytes(str(list1), encoding='utf-8') print(b1, type(b1)) # 3.二进制转字符串：str(数据，encoding = 'utf-8') # 方法一： str1 = str(b1, encoding='utf-8') print(str1, type(str1)) list1 = eval(str1) print(list1, type(list1)) # 方法二： # 字符串转换成二进制：字符串.encode(encoding='utf-8') str2 = 'hello' b2 = str2.encode(encoding='utf-8')

第三节：re模块的使用：

import re # 1.compile(正则表达式) - 编译正则表达式，返回正则对象 re_obj = re.compile(r'\d{3}') # 正则表达式对象.fullmatch(字符串) print(re_obj.fullmatch("789")) # 相等于 print(re.fullmatch(r"\d{3}", '456')) # 匹配 """ fullmatch(正则，字符串) - 让整个字符串和正则进行匹配，匹配失败返回none,匹配成功返回匹配对象。 match(正则, 字符串) - 让字符串的开头和正则进行匹配，匹配失败返回None，匹配成功返回匹配对象。 """ print(re.match(r'\d{3}', '345asdfghjkl')) # 匹配对象 result = re.match(r'(\d{2})([a-z]{2})(..)', "55aa544蛋壳") print(result) # a.匹配到的子串 # ## 匹配对象.ground() print(result.group(0)) # 匹配全部分组 print(result.group(1)) # 匹配第一个分组 print(result.group(2)) # 匹配第二个分组 # ## b.匹配范围 - 匹配到的子串在员只发出中的下标范围 # 匹配对象.span() print(result.span(2)) # 匹配地二个分组的下标范围 print(result.group(3)) # 查找 """ search(正则, 字符串) - 在字符串中查找第一个满足正则的字串，如果找到了返回匹配对象，找不到返回None。 findall(正则, 字符串) - 获取字符串中所有满足正则的字串，返回值是列表，列表中的元素是字符串。 finditer(正则, 字符串) - 获取字符串中所有满足正则的子串，返回值是迭代器，迭代器中的元素是匹配对象。 """ # ## search(正则, 字符串) print(re.search(r'\d{3}', '464dasdadadas')) # ## findall(正则, 字符串)：只能返回分组里面的数 # 没有分组 print(re.findall(r'\d{3}', '464dasda464as')) # 有一个分组： print(re.findall(r'z(\d{3})', 'z464daz55sdaz464as')) # 有两个或者两个以上的分组： print(re.findall(r'z(\d{3})([a-z]{2})', 'z464daz55sdaz464as')) # [('464', 'da'), ('464', 'as')] # ## finditer(正则, 字符串) # 可以使用分组，并显示分组后面的数 result = re.finditer(r'(\d|[a-z])[a-z]', 'z464daz55sdaz464as') print(result) print(list(result)) # 4.切割和替换 """ split(正则, 字符串) - 将字符串中满足正则的子串作为切割点 sub(正则,字符串1, 字符串2) - 将字符串2中满足正则的子串全部替换成字符串1 """ result = re.split(r'\d+', 'asjj823kasjkdfh299jSDK飞机s和478sdjfh3上课的家伙5上看到回复') print(result) result = re.sub(r'\d+', '+', 'asjj823kasjkdfh299jSDK飞机和478sdjfh3上课的家伙5上看到回复') print(result)

最新回复(0)