Python_正则的绝对匹配和部分匹配

Created： 2023 - 01 - 23 - 13:05

Updated： 2024 - 10 - 13 - 20:18

更新说明

后续更新笔记元信息，重读一遍发现写的不太好，非常难理解

推倒重写一篇，精简文章，仅提炼出过程、知识点

问题产生过程

讲讲开发项目过程遇到的问题
需求是检测数组中每个属性的值是否数组，也就是通过判断是否开头是空格+换行符（ \n）进行判断

匹配文本如下（json格式）：

[
    " 回路殷勤 \n", 
    " \n", 
    " 2022-11-04 22:14 \n", 
    " 2022-11-04 22:34\n", 
    "\n"
]

写个正则判断，符合2个条件，则判断该属性的值是数组类型

不管前面有多少个空格：\s+
结尾是换行符：[\n]

r_key = re.compile(r'\s+[\n]')

然后问题产生，我使用正则的方法search去匹配，结果如下
原期望的结果是只匹配第3行（" \n"），但是发生了预期外的错误，返回了3个结果

[
    " 回路殷勤 \n", 
    " \n", 
    " 2022-11-04 22:14 \n"
]

解决方法

为什么会匹配3个值，而不是1个值（第4行）？

import re
a = [
    " 回路殷勤 \n", 
    " \n", 
    " 2022-11-04 22:14 \n", 
    " 2022-11-04 22:34\n", 
    "\n"
]

r_key = re.compile(r'\s+[\n]')
for i in a:
    try:
        print(re.search(r_key,i))
    except:
        continue
"""
<re.Match object; span=(5, 7), match=' \n'>
<re.Match object; span=(0, 2), match=' \n'>
<re.Match object; span=(17, 19), match=' \n'>
None
None
"""

原因在于使用的正则方法上
search和match方法，一个全字段匹配，一个开头匹配

我这里采用了search方法，相当于全字段匹配，也就是说不管空格+换行符（ \n）在全字段哪个位置，都会匹配上，所以导致了预期外的错误

修改下使用的方法即可，修改后符合预期：

import re
a = [
    " 回路殷勤 \n", 
    " \n", 
    " 2022-11-04 22:14 \n", 
    " 2022-11-04 22:34\n", 
    "\n"
]

r_key = re.compile(r'\s+[\n]')
for i in a:
    try:
        print(re.match(r_key,i))
    except:
        continue
"""
None
<re.Match object; span=(0, 2), match=' \n'>
None
None
None
"""

[[Python正则中 search 与 match的区别]]