百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 技术资源 > 正文

技术趣讲 |「正则」王国奇遇记(正则 g)

lipiwang 2025-04-06 17:56 6 浏览 0 评论


第一回 初来乍到

NPC: "欢迎来到正则表达式的国度,勇士!这里的每一个人都使用正则表达式,我是这里的 NPC,每一个来到这里的人都将由我代为介绍正则世界的规则,至于能领悟到何种境界,就看你的造化了。祝你好运,勇士!"

你:"啊,好的,正则表达式......有点奇怪的名字,它是什么呢?"

NPC:"什么?你还没有听过正则表达式,真是一个莽撞的小伙子。看来你也和外面世界的人一样,每次只有用到字符串匹配 时,才会通过「谷鸽」来我们的国度寻找答案。一群知其然不知其所以然的家伙。"

说着,NPC 身前浮现出几个鎏金大字:

正则表达式:用来匹配一系列符合某个规则的字符串的表达式。

"正则的意思是正规、规则。正则表达式的英文名是 Regular Expression,可以直译为描述某种规则的表达式,一般缩写为 regex" ,NPC 缓缓说道。


第二回 牛刀小试

NPC:"我先来考考你吧:你如何判断一个字符串是不是有效的电话号码?这可是一个非常常见的需求。"

你:"没问题,我以前确实写过一份类似的代码。首先判断字符串是否是 11 位,再判断每一位是否都是数字就可以了。"

NPC:"好了好了,快把你这份代码藏好,这份代码放到我们正则的国度是会被笑掉大牙的。看看我们国度的人是怎么实现这份需求的吧!"

你:"啊?如此简洁的实现,正则强者竟恐怖如斯!"

NPC:"这可不是什么强者写的代码,充其量算是牛刀小试罢了。"


第三回 初窥门径

NPC:"我先给你讲讲正则表达式的精确匹配。一个普通的字符串,比如 abc,它如果用来做正则表达式匹配的话,只能匹配自己。也就是说它只能匹配字符串 abc,不能匹配 ab,Abc 等其他任何字符串。"

你:"这好像没什么用,需要精确匹配的话,我们可以用 String.equals()函数,不需要用正则吧?"

NPC:"没错,正则表达式的精确匹配很少用到。我只是在给你介绍正则表达式的一条基本规则而已。"

NPC:"如果需要匹配的字符串含有特殊字符,那就需要用 \转义。比如 a&b,在用正则表达式匹配时,需要使用 a\&b,又由于在 Java 字符串中,\ 也是特殊字符,它也需要转义,所以 a\&b 对应的 Java 字符串是 a\\&b,它是用来匹配 a&b 的。"

你:"这么说来,这两个反斜杠的意义竟然还不一样:一个是正则的转义,一个是 Java 字符串的转义。那么我们之前那个匹配电话号码的例子里面, \\d的本意也是 \d吗?"

NPC:"不错不错,算你还有点悟性。\d在正则表达式中表示匹配任意数字,d 是 digital 的简写。比如 00\d就可以匹配 000, 007,008等等。"

你:"那么,00\d可以匹配 0066吗?"

NPC:"不能,\d只能匹配单个数字。"

你:"那我要怎么才能匹配多个数字呢?"

NPC:"你可以写多次,比如 \d\d就能匹配两个数字,\d\d\d能匹配三个数字,需要匹配几个数字就写几次就行了。"

你:"那我如果要匹配 10000 个数字呢?总不能写一万次吧?"

NPC:"那就像我们刚才匹配电话号码的例子一样,在 \d 后面打上花括号 {},{n} 表示匹配 n 次。\d{10000} 就表示匹配 10000 个数字。"

你:"原来如此,现在我能完全看懂刚才写的匹配电话号码的例子了!"

NPC:"趁热打铁,如果要匹配 n ~ m 次,用 {n,m}即可,如果要匹配至少 n次,用 {n,}即可。需要注意,后不能有空格。"

"按照这个写法,如果要匹配最多 m次,是不是用 {,m}? "你若有所思。
NPC:"刚夸了你有点悟性又被你蠢哭了,最多 m 次需要这么写吗?直接用 {0,m}不就行了吗?只是因为正无穷不好表示我们才用的 {n,},在正则国度根本没有 {,m}这样的写法。 "

你:"啊,原来如此,我想多了。"


第四回 小有所成

NPC:"正则的基础规则中,除了 \d,还有 \w和\s,w 是 word 的简写,表示匹配一个常用字符,包括字母、数字、下划线。s 是 space 的简写,表示匹配一个空格,包括三种:

  • 空格键打出来的空格
  • Tab 键打出来的空格
  • 回车键打出来的空格"

你:"Tab 键打出来的空格和回车键打出来的空格?是指 \t和 \n吗?"

NPC:"完全正确。"

你:"我明白了,我来测试一下。"

NPC:"非常棒,我的勇士!希望这三个基本规则还不至于让你记昏了头。不过请放心,没有其他字母需要记忆了,只有这三个而已。"


第五回 更进一步

NPC:"记住上面三个规则之后,你还可以顺带获得几个新的规则。因为正则国度规定:将字母换成大写,就表示相反的意思。用 \d你可以匹配一个数字,\D则表示匹配一个非数字。"

你:"哈,设计者真是太机智了,大大减少了我这种新手的学习成本。"

NPC:"是的,这非常好记。类似地,\W 可以匹配 \w 不能匹配的字符,\S 可以匹配 \s 不能匹配的字符。"


第六回 渐入佳境

NPC:"有时候,我们对某些位置的字符没有要求,仅需要占个位置即可。这时候我们就可以用 . 字符。"

你:"那是不是也可以理解为:.可以匹配任意字符。"

NPC:"是的,可以这么理解。还记得之前说的 {n}表示匹配 n次吗?有时候,我们对匹配的次数没有要求,匹配任意次均可,这时,我们就可以用 *字符。"

你:"我有疑问,为什么第三个表达式也会输出 true 呢?明明没有出现数字啊?"

NPC:"那意味着出现了 0 次,* 是指 可以匹配任意次,包括 0 次。也就是说,* 等价于 {0,}"

你:"我感觉比较常见的需求应该是某个字符至少出现一次吧?"

NPC:"那就可以用 +匹配,+表示 至少匹配一次。它等价于 {1,}"

你:"哈哈,看来设计者也发现了这个需求更常用。平时 +号比 *号用得多吧"!你感觉自己猜到了语法设计者的想法,洋洋得意地对 NPC 说道。

"这倒没人统计过",NPC 白了你一眼,"在我们正则的国度,常常是一个场景一个正则,不存在谁比谁更常用的对比,按照实际场景使用就行了。"

NPC:"还有一种场景,如果某个字符要么匹配 0 次,要么匹配 1 次,我们就可以用 ? 匹配。它等价于 {0,1}"

你:" .匹配任意字符;*匹配任意次,包括 0 次;+号匹配至少 1 次,?匹配 0 次或 1 次。我记住了!"


第七回 心浮气躁

一下子掌握了这么多的正则匹配规则的你有点飘飘然,于是你对 NPC 说道:"我感觉我已经掌握了够多的匹配规则,足以应付所有的字符串匹配场景了!"

NPC:"是的,你已经掌握了足够多的规则,勇士。可先别得意得太早,我再考考你吧。看看匹配电话号码的程序,如果我们规定电话号码不能以 0 开头,应该怎么写正则表达式呢?"

"不能以 0 开头,那就不能用\d{11}了,这......",你抓耳挠腮,为难起来。

这时,调皮的 NPC 学着你刚才的样子,说道:"我已经掌握了足够多的匹配规则,足以应付所有的字符串匹配场景了!"

你:"呃,还差一点......快别取笑我了,快告诉我这个要用什么新的规则吧!"

"年轻人啊,总是心浮气躁",NPC 摇了摇头,"这样的场景需要用 [] 来匹配,[] 用于匹配指定范围内的字符,比如[123456789] 可以匹配 1~9。"

你:"啊哈,那我就知道怎么写了, 这个问题的正则匹配规则是[123456789]\d{10}。"

NPC:"就是这样。这里还有一个语法糖,[123456789] 写起来太麻烦,可以写作 [1-9]。"

你:"只能用于数字吗?可以用在字母身上吗?"

NPC:"当然可以,比如 [a-g] 表示 [abcdefg],[U-Z] 表示 [UVWXYZ]。"

你:"但如果既可以是数字 1~9,又可以是字母 a~g,还可以是字母 U~Z,还是得把所有范围列出来。"

NPC:"不必,你还可以这么写:[1-9a-gU-Z]。"

你:"这可真是太方便了!如果是 0~1,8~9 可以这样组合吗?"

NPC:"那样的话,你写 [0189] 不是更简洁吗?"

你:"我想学习(装 X)。"

NPC:"那当然也是可以的,[0-18-9] 正是你想要的。由于正则一次只匹配一个字符,所以这样写并不会有歧义,也就是说计算机不会把这种写法误解成要匹配 0~18 之类的。"

NPC:"还有一种写法可以实现这一点,那就是用 运算符,正则的 运算符是 |,[0189]也可以写作 0|1|8|9。"

你:"所以说范围就是 的简写,对吗?"

NPC:"不对, 可以实现更多的功能,它并不局限于单个字符。"

你:"如果我想排除某些字符呢?比如这个位置不能是 [123]。我记得你之前说正则王国以大写表示取反,[]要怎么大写呢?"

NPC:"[]可没有大写之说,[]取反的方式是:[^],比如不能是 [123]的表示方法为 [^123]或者 [^1-3]"

你:"原来如此,我懂了。现在还有什么规则我没有学到的吗?"

NPC:"新手教程到这里就结束了,这已经足够你应付许多应用场景了。但我这还有两本高手秘籍,你想不想学呢?"

你:"高手秘籍!听着都让人激动啊,快讲讲!"


第八回 探囊取物

NPC:"这第一本秘籍的名字叫 探囊取物。考虑一个实际需求,有许许多多以下格式的字符串,你需要用正则表达式匹配出其姓名和年龄。

  • Name:Aurora Age:18
  • 其中还夹杂着一些无关紧要的数据
  • Name:Bob Age:20
  • 错误的数据有着各种各样错误的格式
  • Name:Cassin Age:22
  • ..."

你:"没问题,这已经难不倒我了。让我想想......观察字符串的规则,只需要用 Name:\w+\s*Age:\d{1,3} 就能匹配了。"

NPC:"很好!一般来说,下一步你要做的就是取出这些表达式中的姓名和年龄,以便把它们存到数据库中。"

你:"那我可以用 indexOf 和 subString 函数来取这些值。 "

NPC:"的确可行,但你现在不需要那个蠢办法了,我的勇士。你已经掌握了正则的力量,在我们正则国度有更简洁的取值方式。"

NPC:"看吧,只要用 ()将需要取值的地方括起来,传给 Pattern 对象,再用 Pattern 对象匹配后获得的 Matcher 对象来取值就行了。每个匹配的值将会按照顺序保存在 Matcher 对象的 group 中。"

NPC:"你可以看到我用 ()把 \\w+和 \\d{1,3}分别括起来了,判断 Pattern 对象与字符串是否匹配的方法是 Matcher.matches(),如果匹配成功,这个函数将返回 true,如果匹配失败,则返回 false。"

你:"这里是不是写错了,为什么 group 是从下标 1 开始取值的,计算机不都从 0 开始数吗?"

NPC:"并没有写错,这是因为 group(0) 被用来保存整个匹配的字符串了。"

你:"原来是这样,分组可真是太方便了。但我们之前都是用的 String.matches方法来匹配的正则表达式,这里用的 Pattern 又是什么呢?"

NPC:"想知道这个问题的答案的话,我们不妨来看一下 String.matches方法的源码。"

"源码中调用了 Pattern.matches方法,我们再跟进去。"

你:"啊,我明白了!原来 Pattern 并不是什么新鲜东西,String.matches内部就是调用的 Pattern,两种写法的原理是一模一样的!"

NPC:"没错,并且阅读源码之后,你可以发现,每次调用 String.matches函数,都会新建出一个 Pattern 对象。所以如果要用同一个正则表达式多次匹配字符串的话,最佳的做法不是直接调用 String.matches方法,而应该先用正则表达式新建一个 Pattern 对象,然后反复使用,以提高程序运行效率。"


第九回 移花接木

NPC:"我这第二本秘籍名为 移花接木。再考虑一个实际场景:你有一个让用户输入标签的输入框,用户可以输入多个标签。可是你并没有提示用户,标签之前用什么间隔符号隔开。"

你:"你还别说,我之前真遇到过这个问题。结果用户的输入五花八门,有用逗号的,有用分号的,有用空格的,还有用制表符的......"

  • 二分,回溯,递归,分治
  • 搜索;查找;旋转;遍历
  • 数论 图论 逻辑 概率

NPC:"那你是怎么解决的呢?"

你:"用 String.split 函数呗,这个函数我已经用得很熟练了。将各种分隔符号依次传入尝试,最后总算是解决了。"

输出为:

这时,你看到 NPC 露出了心痛的表情:"暴殄天物啊!你这种行为就好比拿着精心打磨的钻石当电钻头,这样的代码在我们正则王国是会遭人唾骂的。"

你:"String.split 函数不就是用来分割字符串的吗?"

NPC:"当然是,但 split 函数可不是你这样用的,不知你是否看过 split 函数的源码,这个函数传入的参数实际上是一个正则表达式。"

你:"啊?但我之前没写过正则表达式,分割出来也没出错啊!"

NPC:"当然,你忘了我最开始给你讲的了吗?你直接使用字符串,在正则王国属于精确匹配,只能匹配你写死的那个字符串。"

你:"原来如此。那么我应该怎么做呢?"

NPC:"当然是用正则表达式模糊匹配,只要能匹配成功,就以其分割。"

输出为:

你:"原来 split 函数这么强大,我以后不会犯这种错误了!"

NPC:"字符串中,可不止这一个函数是传入的正则表达式,你还记得替换所有匹配字符串用的什么函数吗?"

你:"用的是 replaceAll 函数,这个函数不会也是传的正则表达式吧!"

NPC:"正是这样,所以我们可以用正则表达式模糊匹配,将符合规则的字符串全部替换掉。比如就现在这个例子,我们可以把用户输入的所有数据统一规范为使用 ; 分隔,那我们就可以这样写。"

输出为:

你:"果然是 移花接木,模糊匹配比精确匹配效率高多了!"

NPC:"还不止这一点,在 replaceAll 的第二个参数中,我们可以通过 $1,$2,...来反向引用匹配到的子串。只要将需要引用的部分用 ()括起来就可以了。"

输出为:

你:"哈,有时候我们不需要替换,只需要将正则匹配出来的部分添加一些前缀或后缀,就可以用这种方式!"

NPC:"完全正确。"


第十回 蓦然回首

NPC:"恭喜你学完了所有的正则教程,现在你知道正则表达式是什么了吧。"

你:"没错,以前总感觉正则表达式晦涩难懂,每次用到时就去网上搜索答案,现在看来也不过如此。"

NPC:"说 不过如此 倒是有些托大了,虽然我给你介绍了正则表达式的基本规则,但正则表达式里面还有不少的学问可以去挖掘的。每种技术都有一个熟能生巧的过程。"

你:"什么?还有学问?我感觉我已经学完了啊!还有什么学问,一并给我讲了吧!"

NPC:"那你看这样一道题:给你一些字符串,统计其末尾 e 的个数:

  • LeetCode
  • LeetCodeeee
  • LeetCodeee"

你:"看起来并不难,用 (\w+)(e*) 匹配,再取 group(2) 判断即可。"

NPC:"你运行一下试试看。"

输出如下:

你:"怎么会这样?我期望的结果是 group1 等于 LeetCod,group2 等于 e 才对啊!"

NPC:"这是因为 e 仍然属于 \w 能匹配的范畴,正则表达式默认会尽可能多地向后匹配,我们王国将其称之为 贪婪匹配。"

你:"贪婪匹配,听起来和贪心算法有异曲同工之妙。"

NPC:"没错,贪婪匹配和贪心算法原理是一致的。与之对应的匹配方式叫做 非贪婪匹配,非贪婪匹配 会在能匹配目标字符串的前提下,尽可能少的向后匹配。"

你:"那么,我要怎样指定匹配方式为非贪婪匹配呢?"

NPC:"也很简单,在需要非贪婪匹配的正则表达式后面加个 ? 即可表示非贪婪匹配。"

运行程序,输出如下:

你:"这里也用的是 ?,我记得之前 ?表示的是匹配 0 次或者 1 次,两个符号不会混淆吗?"

NPC:"不会混淆的,你仔细想一想就能明白了,如果只有一个字符,那就不存在贪婪不贪婪的问题,如果匹配多次,那么表示非贪婪匹配的 ?前面必有一个标志匹配次数的符号。所以不会出现混淆。"

你:"最后一个问题,为什么这里没有匹配成 group1 等于 L,group2 等于 ee...... 哦我明白了,如果这样匹配的话,字符串 LeetCode就无法和正则表达式匹配起来。怪不得非贪婪匹配的定义是 在能匹配目标字符串的前提下,尽可能少的向后匹配。"

NPC:"就是这个原理,看来你是真的完全明白了。"


第十一回 最终考验

NPC:"天下没有不散的宴席,是时候说再见了。虽然我能教你的,或是说想与你探讨的,还不止这些内容,但授人以鱼不如授人以渔,以后遇到正则相关的问题,还是要靠你自己动脑思考。"

你:"这么快就要告别了吗?不知道为什么,竟然还有点舍不得......"

NPC:"我最后再出一道题考考你,你就可以从正则王国顺利毕业了。来看下你的题目吧:我们王国有一个人口吃,请你帮忙矫正他。他今天说:肚...子。。好饿........,....早知道.....当.....初...。。。多.....刷.....点。。。力.....扣了.........!"

你:"ez,只需要用 str.replaceAll(__, __) 就可以解决了!"


互动话题:

嘿,说你呢!在留言区写下你的答案吧!


本文作者:Alpinist Wang

声明:本文归 “力扣” 版权所有,如需转载请联系。

相关推荐

《每日电讯报》研发数字工具,教你更有效率地报道新闻

为鼓励新闻编辑部持续创新,《每日电讯报》正在尝试有战略地研发数字工具。网站的数字媒体主任马尔科姆o科尔斯(MalcolmColes)表示,《每日电讯报》正试图去“创建一些可持续资产”,以便于让记者们...

html5学得好不好,看掌握多少标签

html5你了解了多少?如果你还是入门阶段的话,或者还是一知半解的话,那么我们专门为你们收集的html5常用的标签大全对你就很有帮助了,你需要了解了html5有哪些标签你才能够更好的。驾驭html5...

前端分享-少年了解过iframe么(我想了解少年)

iframe就像是HTML的「内嵌画布」,允许在页面中加载独立网页,如同在画布上叠加另一幅动态画卷。核心特性包括:独立上下文:每个iframe都拥有独立的DOM/CSS/JS环境(类似浏...

做SEO要知道什么是AJAX(人能看到但搜索引擎看不到的内容)

一个明显的,人能看到但搜索引擎不能看到的内容是AJAX。那么什么是AJAX呢?其实,了解过的基本上也都清楚,AJAX不是新的编程语言,而是一种使用现有标准的新方法。AJAX最大的优点是在不重新加...

介绍最前沿的人工智能创新,‘无反向传播’神经网络训练方法?

图像由GoogleImageFX生成前言:本文整理自NoProp原始论文与实践代码,并结合多个公开实现细节进行了全流程复现。对神经网络训练机制的探索仍在不断演进,如果你也在研究反向传播之...

说说我们对HTML6的期许(对html的看法)

HTML5概述HTML5是HTML语言最受欢迎的版本之一,它支持音频和视频、离线存储、移动端、和标签属性等等。还提供了article,section,header这样的标签来帮助开发者更好...

浏览器中在线预览pdf文件,pdf.mjs插件实现web预览pdf

背景:本来只是淘宝上卖卖袜子,想着扩展一下业务,准备做同名“来家居”海外袜子馆外贸项目,碰到pdf在线预览的需求,就找了pdf.js插件进行实践后把此方法记录下来,可以通过多种方法来实现,每种方法都有...

SVG 在前端的7种使用方法,你还知道哪几种?

本文简介点赞+关注+收藏=学会了技术一直在演变,在网页中使用SVG的方法也层出不穷。每个时期都有对应的最优解。所以我打算把我知道的7种SVG的使用方法列举出来,有备无患~如果你还...

HTML5常用标签大全(html5em标签)

HTML前端开发最终取决于掌握标签的多少HTML大概有七八百个标签楼主这里给大家总结了下HTML常用标签标签描述<!--...-->定义注释。<!DOCTYPE>定义文档类型...

&quot;伪君子Snoop Dogg!&quot;... WHAT?| MetroDaily 24/7

TUE.01-新作品-虽说年纪大了会有点糊涂,但是最近SnoopDogg的这波操作实在是让粉丝们有点迷,甚至有人表示没想到他是这样的"伪君子"......而这一切都源于他近日在IG上Po出的一...

史努比snoopy卡通手机壁纸屏保(史努比壁纸无水印)

...

莎夏·班克斯盼望表哥Snoop Dogg为其作出场曲

NXT女子冠军莎夏·班克斯(SashaBanks)近日接受了迈阿密先驱报采访,访谈纪要如下:关于她出众的形象:“我一向喜欢与众不同。为了能让人眼前一亮,我的装束总是非常前卫、非常抢眼,这样才能让观众...

喜欢Snoop!全球第一间「史努比博物馆」海外分馆在东京!

1950年起,由美國漫畫家CharlesM.Schulz創作的作品《Snoopy》史努比,其鮮明的可愛角色與幽默的劇情內容,至今仍成為許多大朋友與小朋友心中的最愛。為了紀念作者所設立的全球首...

Vetements 推出 Snoop Dogg 肖像「天价」T-Shirt

Vetements的CEOGuramGvasalia早前才透露品牌经营策略的秘密–Vetements如何成为人人热议的话题品牌。但似乎他仍有更多需要解释的东西–这个法国奢侈品牌最新...

狗爷Snoop Dogg的《I Wanna Thank Me》巡回演唱会旧金山站

西海岸匪帮说唱歌手SnoopDogg在《IWannaThankMe》巡回演唱会旧金山站表演(图片来自ICphoto)西海岸匪帮说唱歌手SnoopDogg(图片来自ICphoto)西海...

取消回复欢迎 发表评论: