正则表达式是JavaScript字符串处理的基础设施,必须掌握RegExp对象及match()、test()、replace()等方法;字面量简洁但不可拼接变量,构造函数支持变量但需双写反斜杠;不同场景应选用match、test、exec或replace。
正则表达式不是“高级技巧”,而是 JavaScript 字符串处理的基础设施——只要你要做搜索、提取、替换或验证,绕不开 RegExp 对象和字符串的 match()、
test()、replace() 等方法。
JavaScript 中创建正则有两种方式,区别直接影响动态构建和转义行为:
/\d{3}-\d{4}/ —— 简洁,但无法拼接变量;斜杠间的内容不经过字符串解析,所以反斜杠只需写一个new RegExp("\\d{3}-\\d{4}") —— 支持变量插值,但传入的是字符串,反斜杠必须双写(因为字符串本身会吃掉一层)new RegExp("\d{3}-\d{4}") 会报错或匹配失败,因为 \d 在字符串中被当成非法转义别只记 match(),不同场景该用谁,取决于你想要什么结果:
str.match(/pattern/g) → 返回匹配到的字符串数组(无 g 标志时返回带 index 和 groups 的对象)/pattern/.test(str) → 只返回 true 或 false,适合表单验证等布尔判断,性能最好/pattern/g.exec(str) → 每次调用返回下一个匹配结果,配合循环可手动控制遍历,支持捕获组提取str.replace(/pattern/g, "new") → 替换所有匹配;若第二个参数是函数,可动态生成替换内容(比如把 "price: $123" 中的数字加税)看似简单的正则,常因忽略上下文语义翻车:
. 匹配任意字符(除换行符),不是“点号”本身;要匹配真实点号,必须写成 \.
^ 和 $ 在多行模式下行为变化:/^abc$/m 中的 ^ 会匹配每行开头,而非整个字符串开头g(全局)和 i(忽略大小写)可以组合,如 /hello/gi;但 g 会影响 lastIndex,导致多次调用 exec() 时状态残留\w 默认不匹配中文,要用 /[\u4e00-\u9fa5]/ 或启用 u 标志(/\p{Script=Han}/u)const text = "Contact: john@example.com or support@site.co";
const emailRegex = /\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b/g;
console.log(text.match(emailRegex)); // ["john@example.com", "support@site.co"]
真正难的不是写出一个能跑的正则,而是写出在边界输入(空字符串、特殊符号、超长文本、嵌套结构)下依然稳定、可读、可维护的正则——它得经得起别人改,也经得起自己三个月后回看。