PHP基础(八) PHP的正则表达式(上)-张柏沛IT博客

正文内容

PHP基础(八) PHP的正则表达式(上)

栏目:PHP 发布时间:2019-11-25 15:57 浏览量:193

正则表达式简介:


正则表达式是用于描述字符排列和匹配模式的一种语法规则。它主要用于字符串的模式分割、匹配、查找及替换操作。到目前为止,我们前面所用过的精确(文本)匹配也是一种正则表达式。

在PHP中,正则表达式一般是由正规字符和一些特殊字符(类似于通配符)联合构成的一个文本模式的程序性描述。

PHP中,正则表达式有三个作用:
匹配,也常常用于从字符串中析取信息。
用新文本代替匹配文本。
将一个字符串拆分为一组更小的信息块。

一个正则表达式中至少包含一个原子。

 

PHP中操作正则的函数:

 

函数名

功能描述

preg_match()

进行正则表达式匹配

preg_match_all()

进行全局正则表达式匹配

preg_replace()

执行正则表达式的搜索和替换

preg_split()

用正则表达式分割字符串

preg_grep()

返回与模式匹配的数组单元

preg_replace_callback

用回调函数执行正则表达式的搜索和替换

 

正则表达式作为一个匹配的模版,是由原子(普通字符,例如字符a到z)、特殊字符(元字符,例如*、+和?等)、以及模式修正符三部分组成的文字模式。
一个最简单正则表达式至少包含一个原子。
将下面的正则表达式拆分如下:

'/<a.*?(?:|\\t|\\r|\\n)?href=[\"]?(.+?)[\"]?(?:(?:|\\t|\\r|\\n)+.*?)?>(.+?)<\/a.*?>/sim'

定界符:两个斜线”/”。
原子用到了< a href = ‘ “ / >等普通字符和\t \r \n等转义字符
元字符使用了 [] () | . ? * + 等具有特殊含义的字符
用到了模式修正符是在定界符最后一个斜线之后的三个字符: s i m

 

在程序语言中,使用与Perl兼容的正则表达式,通常都需要将模式表达式放入定界符之间,如“/”。

作为定界符常使用反斜线“/”,如“/apple/”。用户只要把需要匹配的模式内容放入定界符之间即可。作为定界的字符也不仅仅局限于“/”。除了字母、数字和斜线“\”以外的任何字符都可以作为定界符,像  ‘#’、’|’、’!’ 等都可以的。

/<\/\w+>/        --使用反斜线作为定界符合法
|(\d{3})-\d+|Sm         --使用竖线”|”作为定界符合法
!^(?i)php[34]!        --使用竖线”!”作为定界符合法
{^\s+(\s+)?$}         --使用竖线”}”作为定界符合法
/href=‘(.*)’         --非法定界符,缺少结束定界符
1-\d3-\d3-\d4|         --非法定界符,缺少其实定界符

 

原子

原子是正则表达式的最基本的组成单元,而且在每个模式中最少要少包含一个原子。原子是由所有那些未显示指定为元字符的打印和非打印字符组成,具体分为5类。

1. 普通字符作为原子: 如 a~z、A~Z、0~9 等
2. 一些特殊字符和转义后元字符作为原子:
所有标点符号,但语句特殊意义的符号需要转义后才可作为原子,如:\” \’ \* \+ \? \. 等
3. 一些非打印字符作为原子: 如:\f \n  \r \t \v \cx
4. 使用“通用字符类型”作为原子:如:\d \D \w \W \s \S。
5. 自定义原子表([])作为原子:如:’/[apj]sp/’ ’/[^apj]sp/’

 

正则表达式中常用的“通用字符类型”

原子字符

含义描述

\d

匹配任意一个十进制数字,等价于[0-9]

\D

匹配任意一个除十进制数字以外的字符,等价于[^0-9]

\s

匹配任意一个空白符,等价于[\f\n\r\t\v]

\S

匹配除空白符以外任何字符,等价于[^\f\n\r\t\v]

\w

匹配任意一个数字、字母或下画线,等价于[0-9a-zA-Z_]

\W

匹配一个除数字、字母或下画线以外的任意一个字符,等价于[^0-9a-zA-Z_]

 

 

正则表达式中常用的非打印字符

原子字符

含义描述

\cx

匹配由x指明的控制字符。如\cM匹配一个Control-M或回车符。x的值必须为A~Z或a~z之一。

\f

匹配一个换页符。等价于 \x0c或\cL

\n

匹配一个换行符。等价于 \x0a或\cJ

\r

匹配一个回车符。等价于 \x0d或\cM

\t

匹配一个制表符。等价于 \x09或\cI

\v

匹配一个垂直制表符。等价于 \x0b或\cK

 

元字符

元字符

含义描述

*

匹配0次、1次或多次其前的原子

+

匹配1次或多次其前的原子

匹配0次或1次其前的原子

.

匹配除了换行符外的任意一个字符

|

匹配两个或多个分支选择

{n}

表示其前面的原子恰好出现n次

{n,}

表示其前面的原子出现不小于n次

{n,m}

表示其前面的原子至少出现n次,最多出现m次

^或\A

匹配输入字符串的开始位置(或在多行模式下行的开头,即紧随一个换行符之后)

$或\Z

匹配输入字符串的结束位置(或在多行模式下行的结尾,即紧随一个换行符之前)

\b

匹配单词的边界

\B

匹配除单词边界以外的部分

[]

匹配方括号中指定的任意一个原子

[^]

匹配除方括号中的原子以外的任意一个字符

( )

匹配其整体为一个原子,即模式单元。可以理解为由多个单个原子组成的大原子

 

模式匹配的优先级

顺序

元字符

描述

1

\

转义字符

2

()  (?:)  (?=)  []

模式单元和原子表

3

*  +   ?  {n}  {n,} {n,m}

重复匹配

4

^  $  \b  \B  \A   \Z

边界限制

5

|

模式选择

 

模式修正符

修正符

含义描述

i

在和模式进行匹配时不区分大小写

m

将字符串视为多行。默认的正则开始“^”和结束“$”将目标字符串作为单一的一“行”字符。加上m后,那么开始和结束将会指字符串的每一行。

s

如果设定了此修正符,模式中的圆点元字符“.”匹配所有的字符,包括换行符。即将字符串视为单行,换行符作为普通字符看待

x

模式中的空白忽略不计,除非它已经被转义

e

只用在preg_replace()函数中,在替换字符串中对逆向引用做正常的替换,将其作为 PHP 代码求值,并用其结果来替换所搜索的字符串。

U

本修正符反转了匹配数量的值使其不是默认的重复,而变成在后面跟上“?”才变得重复。这和 Perl 不兼容。也可以通过在模式之中设定 (U) 修正符或者在数量符之后跟一个问号(如启.*?)来用此选项。

D

模式中的美元元字符仅匹配目标字符串的结尾。没有此选项时,如果最后一个字符是换行符的话,美元符号也会匹配此字符之前。如果设定了 m 修正符则忽略此选项

 

下一节会列举一些正则中的详细使用方式和例子

如果您需要转载,可以点击下方按钮可以进行复制粘贴;本站博客文章为原创,请转载时注明以下信息

张柏沛IT技术博客 > PHP基础(八) PHP的正则表达式(上)

热门推荐
推荐新闻