当前位置: 首页 > 科技观察

一篇破解正则密码的文章

时间:2023-03-18 21:37:24 科技观察

前言正则,熟悉的陌生人,我们在表单验证中看到,也在框架源码html转ast树的解析器原理中看到;经常看到,需要的时候百度一下,确实管用,但是遇到的时候,就懵了。原因很简单。谁能看懂这火星文字!本文的目标是带您进入常规世界。作为一篇认真负责的科普文章,一定要做到这么多,才能一遍又一遍地学习,但是不行,所以要一遍一遍的检查。RegularizationHistory正则化其实就是为了验证或者信息获取而设置规则。它真的起源于神经网络。1940年代,两位神经生理学家发展出一种用数学方式描述神经网络的方法,并于1956年发表了论文《正则表达式搜索算法》,主要描述了一种叫做MatchesforRegularSets的方法。十年后的1968年,在计算机界大放异彩的UNIX之父发表了文章《正则表达式搜索算法》,将正则表达式移植到著名的文本搜索工具grep中。你为什么明白一些事?不要一上来就死记硬背应用层的API。你需要明白。人脑被设计成很容易记住你所理解的东西,所以不要浪费你的天赋。正如我们所说,正则化实际上是为验证或信息获取设置规则。最残酷的匹配动作无疑是一一对应,a到a,b到b,这个规则是一模一样的去匹配,但这无疑是太低效了;一个事物很容易有共性,共性形成一个集合,比如手机号有13位,邮箱有@等,正则化就是让我们去匹配或者获取这些特定规则集的存在性更有效率。正则中如何做正则中的处理方法是设置子规则,让一些符号不再代表自己,而是代表一些子规则,就像盖楼一样。如果我们要找到我们想要的规则,就得使用合适的最小砖块,然后设置使用量,搭建完成。这个子规则是一个元字符,比如我们常见的\d,代表单个0-1的数字,\s是一个空白字符,比如换行符;需要注意的是,我们一直在强调single,其实很好理解。对于文本来说,最小的单位自然是单个字符。用最小的单元,我们可以用重复的尺度建造我们自己的建筑。至此,我们对正则世界的基本认识已经到位,下面开始更接地气的分享吧!砖头:元字符先来了解一下元字符,元字符有四个维度,分别是【字符组】、【反向字符组】、【普通字符组】、【空白字符】,可以记为【3+1】,按顺序理解。字符组的基本使用对于单字符选择,正则化中的术语称为字符组,接下来我们会用到这个术语,但不要混淆,它不匹配一组数据,而只匹配一组数据data的一个字符,它是关键的。语法:[xxx]。匹配规则:目标文本必须包含[中括号括起来的任何一个元素]。信息获取规则:获取第一个[括号内的任意元素]。例如:/[abc]/此正则表达式将匹配a、b和c中的任意一个且仅匹配其中一个,并且默认匹配第一个数字。使用测试平台会得到如下结果。否定字符组否定逻辑的正常使用是在一个范围内选择,但是也会有范围选择[除了这些],这时候就需要用到否定。语法:[^xxx]。匹配规则:目标文本必须包含[括号内未包含的任何元素]。信息获取规则:获取第一个【括号内不包含的元素】。例如:/[^abc]/此正则表达式将匹配任何且仅匹配一个不是a、b或c的数字。默认情况下,它将匹配第一个数字。使用测试平台,将得到以下结果。常用字符组的82原则同样适用于字符组。常用的匹配规则有很多,没有必要重复写,所以Regex给这些特殊的字符组单独命名。主要分为以下[3+1]的概念,三对+一对。其他常用字符组。空白字符等字符比较特殊,单独取出来,后面直接用。至此,我们也知道怎么匹配单个字符了,这是我们的“最小尺度”,但是肯定不可能一个一个匹配,而且正则会冗长到难以忍受,所以需要重复一遍,这是量词的作用。需要多少块砖:量词了解了字符组之后,我们需要了解刻度。正则化中有个名词---量词,即[3+1],依次理解。这不是很复杂。唯一需要注意的是,默认只匹配一次,即匹配一次后,即使后面的文本中还有匹配的内容,也不会再获取了。这就涉及到了修饰符g,后面会加上。单看例子,我们还是以[abc]作为字符组的最小单位来进行演示。*number:0-n次正则表达式:/[abc]*/。匹配规则:目标文本不需要包含[括号内的任何元素],此匹配规则必须为真。获取信息规则:获取第一段【括号内的连续元素组】。+号:1+n个正则表达式:/[abc]+/。获取信息规则:获取第一段【括号内的连续元素组】。匹配规则:目标文本必须包含[至少一个用括号括起来的元素]。?符号:0或1正则表达式:/[abc]?/。匹配规则:该匹配规则必须为真。信息获取规则:获取第一个[括号内的任意元素]。{}符号:精确控制次数以上其实都是特例。我们可以使用{}来精确控制匹配项的数量。主要有3种用法:{m}:必须出现m次。{m,n}:可以出现m-n次。{m,}:至少出现m次。量词模式量词也涉及到模式问题,因为量词有一个范围,表示更可取和更不可取,但是计算机不允许有歧义,所以量词有三种模式:greedymode:默认,会匹配尽可能多的内容.懒惰模式:添加一个?量词之后会匹配尽可能少的内容。独占模式:量词后加+,不触发回溯动作。例如,参见模式区分测试用例:aaabb。测试正则表达式:贪心模式:/a*/。惰性模式:/a*?/。贪婪模式:/a*/。匹配过程:匹配结果:对应输出结果:['aaa','','','']。惰性模式:/a*?/。匹配过程:匹配结果:对应输出结果:['','a','','a','','a','','','']。补充案例:至此,我们完成了量词规则的学习。正则模式既然量词有模式,那么正则表达式自然也有模式。[case,multi-line,dotwildcard,andremarks]的大小写有[3+1]种模式。不区分大小写模式。单击通配符模式。多行匹配模式。评论模式。下面一一了解一下:大小写不敏感(Case-Insensitive)语法:/(?i)reg/对应js为/reg/i。注意:要指定不区分大小写的模式,请使用模式修饰符(?i)。如果修饰符在括号内,则作用范围是括号内的正则表达式,而不是整个正则表达式。功能:不分大小写匹配。正则表达式:/(?i)(cat)\1/对应js中的/(cat)\1/i。如果此时我们想保持重复单词的大小写完全一致,可以使用下面的正则化。Regex:/((?i)cat)\1/对应的js为None。点通配符模式(单行匹配模式--SingleLine)语法:/(?s)reg/对应js为none。注意:功能:使.Metacharacter匹配包括换行符在内的所有字符。多行匹配模式语法:/(?m)reg/对应js为/reg/m。注:功能:使^和$匹配每行的开头或结尾。使用前常规:/^the|cat$/。使用后正则表达式:/(?m)^the|cat$/对应js为/^the|cat$/m。注释模式语法:/(?#)reg/对应js为None。注意事项:功能:使正则表达式支持添加备注信息。使用正则表达式大小写:/(\w+)(?#word)\1(?#wordrepeatagain)/。对于匹配来说,常规的位置信息就像我们看一个人是不是我们要找的人一样。它不仅是一种看人像和照片的方法,还可以描述TA旁边是什么,TA前面是什么,后面是什么等等,这些位置信息在正则化中也是需要的,有一个特殊的术语——断言。断言,即判断匹配文本的位置关系;前后内容是什么,停止位置在哪里等等,分为词界、行首/行尾、环视三类。我们或多或少熟悉这条线的起点/终点。如果我们要求匹配的内容出现在一行文本的开头或结尾,我们可以使用^和$来定义位置。结合前面提到的【模式】中的多行模式的概念,默认处理文本会作为一行来处理,不管是否换行。这个开头和结尾相当于正文的开头和结尾;而如果要处理多行,只需要将模式改为多行匹配即可,js中的语法是/reg/m。字边界(WordBoundary)多行模式+^$可以处理行维度上的边界问题,但如果是字就无能为力了。例如,我们希望在下面的文本中替换tom。名字是杰瑞。汤姆问我明天是否愿意和他一起去钓鱼。这时,如果正则替换为/tom/,就会出现这种错误替换。显然,我们要的是tom,而不是只需要包含tom的部分。这时候我们可以利用词边界的概念,设置起始截断,避免匹配歧义。基本概念语法:\b。功能:当匹配到\w,即[[A-Za-z0-9_]]时,范围外的字符将停止匹配,可以理解为边界(Boundary)。看看周围的例子我们刚才提到了边界,包括单词和行的边界。其实boundary是需要匹配文本前后的具体内容,但是这个具体内容是^$表示行,$表示字的边界。然后让我们使这个特定范围更加灵活。对于一段内容,有前后两个方向,满意和不满意两种情况,也就是说有四种情况,如下表所示。总结起来,其实就是:有尖括号就左边,等号必须叹气。正则表达式逻辑信息根据上一篇文章,我们学习了【字符组】和【量词】的概念,就像编程语言一样,光有构成材料是不够的,自然需要一些逻辑判断,而【逻辑元字符]也存在于正则表达式中]这个概念。逻辑元字符|sign:orlogic某个资源可能以http://,或者https://,或者ftp://开头,那么资源的协议部分,我们可以用(https?|ftp)://来表示。正则化中有一个分组的概念,它主要有两个作用:整体和复用。整个意思是为了避免语义分析中的歧义,比如【匹配15位还是18位】,如果写这样的正则表达式/\d{15}\d{3}?/;以下\d{3}?将表示惰性模式匹配,此正则表达式将仅匹配18位数字而不是15位。测试正则表达式:/\d{15}\d{3}?/。需要确定\d{3}是一个整体,可以使用分组来实现。测试正则表达式:/\d{15}(\d{3})?/。Reuse有时,我们还需要利用之前匹配的结果,比如【检查文本中连续重复的单词】,解决思路就变成了。编写一个匹配单个单词的正则表达式。使用以前的结果再次匹配。第二点是通过分组实现的;首先了解基本概念。基本概念语法:定义用(),正则表达式用\number访问,方法用$number访问。作用:用于分组。括号内的部分默认保存为子组。可以通过正则表达式中的子组号访问,子组号从1开始递增。也可以使用语法(?:)不保存子组。避免霸占数字。组参考语法组参考详解假设组号为number,可以用\number作参考。多个号码时,左括号为号码,即该组号码。不保存子组使用此语法不会为该子组分配编号。ReplacementFunctionNamedGroupsV8已经完全实现了命名捕获组的提议https://tc39.github.io/proposal-regexp-named-groups/,一起来了解一下吧!基本概念语法:定义使用(?),常规访问使用\k,方法访问使用$。功能:用于命名组,而不是通过数字访问,直接通过分组变量名访问更准确。结合解构赋值的API在js的常规方法中,如果有命名组,就会有一个groups属性,里面存放的是每个命名组的名称和它们匹配的值;结合解构赋值,会有很神奇的效果。在exec()和match()中使用:exec()和match()方法返回的匹配结果数组有一个groups属性,该属性存储每个命名组的名称及其匹配值。const{day,month,year}="04-25-2017".match(/(?\d{2})-(?\d{2})-(?\replace(/.../,replacement)中d{4})/).groups的使用:当replacement为函数时,在实参列表末尾额外传递一个groups对象。"04-25-2017".replace(/(?\d{2})-(?\d{2})-(?\d{4})/,(...args)=>{constgroups=args.slice(-1)[0]const{day,month,year}=groupsreturn`${day}-${month}-${year}`})regular编程是最关键的部分,学了就得用。下面分享一下正则表达式在前端编程中的应用。规律性最终必须在编程语言中实现。让我们来看看常规编程吧!常规处理可以分为以下四类:验证文本内容。提取文本内容。替换文本内容。剪切文本内容。让我们一一了解。注意验证文本内容:关于lastIndex,即正则化下一次匹配开始的位置;对于string的四种方法,每次匹配都是从0开始,即lastIndex不变;而正则化exec和test这两个方法,如果是全局匹配,每次匹配完成都会改变lastIndex的值,可能会导致出现[处理两次,第一次成功,第二次成功时间失败]。varregex=newRegExp(/^\d{4}-\d{2}-\d{2}/,'g')regex.test('2021-12-21')//trueconsole.log(regex.lastIndex)//10regex.test('2021-12-21')//falseconsole.log(regex.lastIndex)//0由于我们是来进行文本验证的,所以不需要全部找出来。因此,在JavaScript中使用RegExp进行文本校验时,建议不要设置g模式。String方法:searchsearch将字符串转换为正则表达式。正则方法:测试Extracttextcontentstring方法:matchmatch将字符串转换为正则。注意:match方法的返回值与修饰符g有关(不匹配则返回null)。不带g:返回标准匹配格式,即:数组第一个元素是整体匹配的内容,后面是分组抓取的内容,然后是整体匹配的第一个下标,最后是目标字符串。使用g:返回包含所有匹配项的数组。正则方法:execexec比match更强大,可以解决match在有修饰符g的情况下没有索引信息的问题。使用exec时,regular会将下一次匹配的开始位置存储在regular的lastIndex属性中。替换文本内容字符串方法:替换剪切文本内容字符串方法:split可以有第二个参数,表示结果数组的最大长度。如果经常使用分组,则结果数组包含定界符。前端相关API摘要字符串匹配。分裂。搜索。代替。正则测试。执行。总结一下,画个知识图谱,方便记忆和分享给大家。3+1个元字符;3+1个通用元字符;3+1正则量词;3量词匹配模式;3+1正则匹配模式;3+1正则逻辑首先,素材元字符有四个维度,分别是【字符组】、【负字符组】、【普通字符组】、【空白字符】,可以记为【3+1】。了解了字符组之后,我们还需要了解刻度。正则化有个术语---量词还是[3+1]。量词还涉及到模式问题,因为量词是有作用域的,就是多可取,少可取,但是计算机不允许有歧义,所以量词有三种模式。由于量词有模式,正则表达式本身也有模式。[case,multi-line,dotwildcard,remarks]的大小写有[3+1]种模式。就像定位一样,不仅需要自己的绝对信息,还需要看自己的相对位置信息。此信息在正则化中称为断言。有三种情况,[linebeginningandend,wordboundaryandlookaround],前后都存在lookaround,对吧?四种情况。就像编程语言一样,我们有零碎的素材是不够的,还需要逻辑。有分支语句|以及正则表达式中的优先级分组,分组分为默认分组、非捕获分组和命名分组三种。至此,我们已经用非常简洁的结语概括了规律性的整体脉络!到头来,年轻人,你们下定决心了,也欢迎你们带走。我希望我能做到让你明白一次就忘记。从头到尾呼应,自己去体会吧。对于一些需求,你会发现,如果用常规的视角,会有很多很神奇的实现方式,如果能帮助到别人,会超级有成就感。