2020-10-20

it2023-10-06 118

初学正则表达式

正则表达式是一个特殊的字符序列，利用事先定义好的一些特定字符以及它们的组合组成一个“规则”，检查一个字符串是否与这种规则匹配来实现对字符的过滤或匹配。大多数字母和字符一般都会和自身匹配。如果在字符串前面加了r，表示对字符串不进行转义。有些字符比较特殊，它们和自身并不匹配，而是表明应和一些特殊的东西匹配，或者会影响重复次数。这些特殊的字符我们称之为元字符。 re模块中findall()方法以列表的形式返回所有能匹配的子串，如果没有找到匹配的，则返回空列表。下面介绍常用的正则表达式元字符。 1.“.”：表示除换行符以外的任意字符与“.”类似（但不相同）的一个符号是“\S”，表示不是空白符的任意字符。注意是大写字符S。 2.“[]”：指定字符集常用来指定一个字符集，例如：[abc]、[a-z]、[0-9]；元字符在方括号中不起作用，例如：[akm $和[m.]中元字符都不起作用；方括号内的“^”表示补集，匹配不在区间范围内的字符，例如：[^3]表示除3以外的字符。 3.“^”：匹配行首，匹配以^后面的字符开头的字符串 4.“$ ”：匹配行尾，匹配以$之前的字符结束的字符串 5.“\”：反斜杠后面可以加不同的字符以表示不同的特殊意义\b匹配单词头或单词尾；\B与\b相反，匹配非单词头或单词尾；\d匹配任何十进制数；相当于[0-9]；\D与\d相反，匹配任何非数字字符，相当于[^{0-9]；\s匹配任何空白字符，相当于[\t\n\r\f\v]；\S与\s相反，匹配任何非空白字符，相当于[}\t\n\r\f\v]；\w匹配任何字母、数字或下画线字符，相当于[a-zA-Z0-9_]；\W与\w相反，匹配任何非字母、数字和下画线字符，相当于[^a-zA-Z0-9_]；也可以用于取消所有的元字符：\、[。这些特殊字符都可以包含在[]中。如：[\s,.]将匹配任何空白字符、",“或”."。正则表达式除了能够匹配不定长的字符集，还能指定正则表达式的一部分的重复次数，所涉及的元字符有“”、“+”、“?”、“{}”。6.“”：匹配位于之前的字符或子模式的0次或多次出现 7.“+”：匹配位于+之前的字符或子模式的1次或多次出现 8.“?”：匹配位于?之前的0个或1个字符当“?”紧随其他限定符（、+、{n}、{n,}、{n,m}）之后时，匹配模式是“非贪心的”。“非贪心的”模式匹配搜索到尽可能短的字符串，而默认的“贪心的”模式匹配搜索到的、尽可能长的字符串。 9.“{m,n}”：表示至少有m个重复，至多有n个重复。m,n均为十进制数忽略m表示0个重复，忽略n表示无穷多个重复。{0,}等同于*；{1,}等同于+；{0,1}与?相同。但是如果可以的话，最好使用*、+、或？。

最新回复(0)