php正则的内容总结(详细)
发布:smiling 来源: PHP粉丝网 添加日期:2019-12-25 09:46:47 浏览: 评论:0
本篇文章给大家带来的内容是关于php正则的内容总结(详细),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助。
1.正则基础知识
行定位符(^与$)
行定位符是用来描述字符串的边界。“$”表示行结尾“^”表示行开始如"^de",表示以de开头的字符串 "de$",表示以de结尾的字符串。
单词定界符
我们在查找的一个单词的时候,如an是否在一个字符串”gril and body”中存在,很明显如果匹配的话,an肯定是可以匹配字符串“gril and body”匹配到,怎样才能让其匹配单词,而不是单词的一部分呢?这时候,我们可以是哟个单词定界符\b。
\ban\b 去匹配”gril and body”的话,就会提示匹配不到。
当然还有一个大写的\B,它的意思,和\b正好相反,它匹配的字符串不能使一个完整的单词,而是其他单词或字符串中的一部分。如\Ban\B。
选择字符(|) ,表示或
选择字符表示或的意思。如Aa|aA,表示Aa或者是aA的意思。注意使用”[]”与”|”的区别,在于”[]”只能匹配单个字符,而”|”可以匹配任意长度的字符串。在使用”[]”的时候,往往配合连接字符”-“一起使用,如[a-d],代表a或b或c或d。
排除字符,排除操作
正则表达式提供了”^”来表示排除不符合的字符,^一般放在[]中。如[^1-5],该字符不是1~5之间的数字。
限定符(?*+{n,m})
限定符主要是用来限定每个字符串出现的次数。
限定字符 含义
? 零次或一次
* 零次或多次
+ 一次或多次
{n} n次
{n,} 至少n次
{n,m} n到m次
如(D+)表示一个或多个D
点号操作符
匹配任意一个字符(不包含换行符)
表达式中的反斜杠(\)
表达式中的反斜杠有多重意义,如转义、指定预定义的字符集、定义断言、显示不打印的字符。
转义字符
转义字符主要是将一些特殊字符转为普通字符。而这些常用特殊字符有”.”,”?”、”\”等。
指定预定义的字符集
字符 含义
\d 任意一个十进制数字[0-9]
\D 任意一个非十进制数字
\s 任意一个空白字符(空格、换行符、换页符、回车符、字表符)
\S 任意一个非空白字符
\w 任意一个单词字符
\W 任意个非单词字符
###显示不可打印的字符
字符 含义
\a 报警
\b 退格
\f 换页
\n 换行
\r 回车
\t 字表符
括号字符()
在正则表达式中小括号的作用主要有:
改变限定符如(|、* 、^)的作用范围
如(my|your)baby,如果没有”()”,|将匹配的是要么是my,要么是yourbaby,有了小括号,匹配的就是mybaby或yourbaby。
进行分组,便于反向引用
模式修饰符
模式修饰符的作用是设定模式,也就是正则表达式如何解释。php中主要模式如下表:
修饰符 说明
i 忽略大小写
m 多文本模式
s 单行文本模式
x
忽略空白字符
U 懒惰模式 (不写默认贪婪模式)
2.常用php正则函数及示例
a. preg_grep() 函数
preg_grep 函数用于返回匹配模式的数组条目。
语法:
array preg_grep ( string $pattern , array $input [, int $flags = 0 ] )
返回给定数组 input 中与模式 pattern 匹配的元素组成的数组。
参数说明:
$pattern:要搜索的模式,字符串形式。
$input:输入的数组。
$flags:如果设置为 PREG_GREP_INVERT,这个函数返回输入数组中与给定模式 pattern 不匹配的元素组成的数组。
实例:
返回数组中指定匹配的元素:
- <?php
- $array = array(1, 2, 3.4, 53, 7.9);
- // 返回所有包含浮点数的元素
- $fl_array = preg_grep("/^(\d+)?\.\d+$/", $array);
- print_r($fl_array);
- ?>
执行结果如下所示:
- Array
- (
- [2] => 3.4
- [4] => 7.9
- )
可以看出 preg_grep 只返回了数组中的浮点数。
b.preg_match() 函数
PHP 正则表达式(PCRE)
preg_last_error 函数用于执行一个正则表达式匹配。
语法:
int preg_match ( string $pattern , string $subject [, array &$matches [, int $flags = 0 [, int $offset = 0 ]]] )
搜索 subject 与 pattern 给定的正则表达式的一个匹配。
参数说明:
$pattern: 要搜索的模式,字符串形式。
$subject: 输入字符串。
$matches: 如果提供了参数matches,它将被填充为搜索结果。 $matches[0]将包含完整模式匹配到的文本, $matches[1] 将包含第一个捕获子组匹配到的文本,以此类推。
$flags:flags 可以被设置为以下标记值:
PREG_OFFSET_CAPTURE: 如果传递了这个标记,对于每一个出现的匹配返回时会附加字符串偏移量(相对于目标字符串的)。 注意:这会改变填充到matches参数的数组,使其每个元素成为一个由 第0个元素是匹配到的字符串,第1个元素是该匹配字符串 在目标字符串subject中的偏移量。
offset: 通常,搜索从目标字符串的开始位置开始。可选参数 offset 用于 指定从目标字符串的某个未知开始搜索(单位是字节)。
返回值:
返回 pattern 的匹配次数。 它的值将是 0 次(不匹配)或 1 次,因为 preg_match() 在第一次匹配后 将会停止搜索。preg_match_all() 不同于此,它会一直搜索subject 直到到达结尾。 如果发生错误preg_match()返回 FALSE。
实例:
查找文本字符串"php":
- <?php
- //模式分隔符后的"i"标记这是一个大小写不敏感的搜索
- if (preg_match("/php/i", "PHP is the web scripting language of choice."))
- {
- echo "查找到匹配的字符串 php。";
- } else {
- echo "未发现匹配的字符串 php。";
- } ?>
查找到匹配的字符串 php。
查找单词"word"
- <?php
- /* 模式中的\b标记一个单词边界,所以只有独立的单词"web"会被匹配,而不会匹配 * 单词的部分内容比如"webbing" 或 "cobweb" */
- if (preg_match("/\bweb\b/i", "PHP is the web scripting language of choice.")) {
- echo "查找到匹配的字符串。\n";
- } else {
- echo "未发现匹配的字符串。\n";
- }
- if (preg_match("/\bweb\b/i", "PHP is the website scripting language of choice.")) {
- echo "查找到匹配的字符串。\n";
- } else {
- echo "未发现匹配的字符串。\n";
- } ?>
查找到匹配的字符串。
未发现匹配的字符串。
获取 URL 中的域名
- <?php
- // 从URL中获取主机名称
- preg_match('@^(?:http://)?([^/]+)@i', "http://www.runoob.com/index.html", $matches);
- $host = $matches[1];
- // 获取主机名称的后面两部分
- preg_match('/[^.]+\.[^.]+$/', $host, $matches);
- echo "domain name is: {$matches[0]}\n";
- ?>
执行结果如下所示:
domain name is: runoob.com
c.preg_match_all() 函数
PHP 正则表达式(PCRE)
preg_match_all 函数用于执行一个全局正则表达式匹配。
语法:
int preg_match_all ( string $pattern , string $subject [, array &$matches [, int $flags = PREG_PATTERN_ORDER [, int $offset = 0 ]]] )
搜索 subject 中所有匹配 pattern 给定正则表达式的匹配结果并且将它们以 flag 指定顺序输出到 matches 中。
在第一个匹配找到后, 子序列继续从最后一次匹配位置搜索。
参数说明:
$pattern: 要搜索的模式,字符串形式。
$subject: 输入字符串
$matches: 多维数组,作为输出参数输出所有匹配结果, 数组排序通过flags指定。
$flags:可以结合下面标记使用(注意不能同时使用PREG_PATTERN_ORDER和 PREG_SET_ORDER):
PREG_PATTERN_ORDER: 结果排序为$matches[0]保存完整模式的所有匹配, $matches[1] 保存第一个子组的所有匹配,以此类推。
PREG_SET_ORDER: 结果排序为$matches[0]包含第一次匹配得到的所有匹配(包含子组), $matches[1]是包含第二次匹配到的所有匹配(包含子组)的数组,以此类推。
PREG_OFFSET_CAPTURE: 如果这个标记被传递,每个发现的匹配返回时会增加它相对目标字符串的偏移量。
offset: 通常, 查找时从目标字符串的开始位置开始。可选参数offset用于 从目标字符串中指定位置开始搜索(单位是字节)。
返回值
返回完整匹配次数(可能是0),或者如果发生错误返回FALSE。
实例
查找匹配 <b> 与 </b> 标签的内容:(自己常用获取$pat_array[1])
- <?php
- $userinfo = "Name: <b>PHP</b> <br> Title: <b>Programming Language</b>";
- preg_match_all ("/<b>(.*)<\/b>/U", $userinfo, $pat_array);
- print_r($pat_array[0]);
- ?>
执行结果如下所示:
- Array
- (
- [0] => <b>PHP</b>
- [1] => <b>Programming Language</b>
- )
d. preg_replace() 函数
preg_replace 函数执行一个正则表达式的搜索和替换。
语法:
mixed preg_replace ( mixed $pattern , mixed $replacement , mixed $subject [, int $limit = -1 [, int &$count ]] )
搜索 subject 中匹配 pattern 的部分, 以 replacement 进行替换。
参数说明:
$pattern: 要搜索的模式,可以是字符串或一个字符串数组。
$replacement: 用于替换的字符串或字符串数组。
$subject: 要搜索替换的目标字符串或字符串数组。
$limit: 可选,对于每个模式用于每个 subject 字符串的最大可替换次数。 默认是-1(无限制)。
$count: 可选,为替换执行的次数。(用于统计被替换的次数)
返回值
如果 subject 是一个数组, preg_replace() 返回一个数组, 其他情况下返回一个字符串。
如果匹配被查找到,替换后的 subject 被返回,其他情况下 返回没有改变的 subject。如果发生错误,返回 NULL。
实例
将 google 替换为 runoob
- <?php
- $string = 'google 123, 456';
- $pattern = '/(\w+) (\d+), (\d+)/i';
- $replacement = 'runoob ${2},$3';
- echo preg_replace($pattern, $replacement, $string);
- ?>
执行结果如下所示:
runoob 123,456
删除空格字符
- <?php
- $str = 'runo o b';
- $str = preg_replace('/\s+/', '', $str);
- // 将会改变为'runoob' echo $str;
- ?>
执行结果如下所示:
runoob
使用基于数组索引的搜索替换
- <?php
- $string = 'The quick brown fox jumped over the lazy dog.';
- $patterns = array();
- $patterns[0] = '/quick/';
- $patterns[1] = '/brown/';
- $patterns[2] = '/fox/';
- $replacements = array();
- $replacements[2] = 'bear';
- $replacements[1] = 'black';
- $replacements[0] = 'slow';
- echo preg_replace($patterns, $replacements, $string);
- ?>
执行结果如下所示:
The bear black slow jumped over the lazy dog.
使用参数 count
- <?php
- $count = 0;
- echo preg_replace(array('/\d/', '/\s/'), '*', 'xp 4 to', -1 , $count);
- echo $count; //3
- ?>
执行结果如下所示:
xp***to
3
e.preg_split() 函数
preg_replace 函数通过一个正则表达式分隔字符串。
语法:
array preg_split ( string $pattern , string $subject [, int $limit = -1 [, int $flags = 0 ]] )
通过一个正则表达式分隔给定字符串。
参数说明:
$pattern: 用于搜索的模式,字符串形式。
$subject: 输入字符串。
$limit: 可选,如果指定,将限制分隔得到的子串最多只有limit个,返回的最后一个 子串将包含所有剩余部分。limit值为-1, 0或null时都代表"不限制", 作为php的标准,你可以使用null跳过对flags的设置。
$flags: 可选,可以是任何下面标记的组合(以位或运算 | 组合):
PREG_SPLIT_NO_EMPTY: 如果这个标记被设置, preg_split() 将进返回分隔后的非空部分。
PREG_SPLIT_DELIM_CAPTURE: 如果这个标记设置了,用于分隔的模式中的括号表达式将被捕获并返回。
PREG_SPLIT_OFFSET_CAPTURE: 如果这个标记被设置, 对于每一个出现的匹配返回时将会附加字符串偏移量. 注意:这将会改变返回数组中的每一个元素, 使其每个元素成为一个由第0 个元素为分隔后的子串,第1个元素为该子串在subject 中的偏移量组成的数组。
返回值:
返回一个使用 pattern 边界分隔 subject 后得到的子串组成的数组。
实例:
获取搜索字符串的部分
- <?php
- //使用逗号或空格(包含" ", \r, \t, \n, \f)分隔短语
- $keywords = preg_split("/[\s,]+/", "hypertext language, programming");
- print_r($keywords);
- ?>
执行结果如下所示:
- Array
- (
- [0] => hypertext
- [1] => language
- [2] => programming
- )
将一个字符串分隔为组成它的字符:
- <?php
- $str = 'runoob';
- $chars = preg_split('//', $str, -1, PREG_SPLIT_NO_EMPTY);
- print_r($chars);
- ?>
执行结果如下所示:
- Array
- (
- [0] => r
- [1] => u
- [2] => n
- [3] => o
- [4] => o
- [5] => b
- )
分隔一个字符串并获取每部分的偏移量
- <?php
- $str = 'hypertext language programming';
- $chars = preg_split('/ /', $str, -1, PREG_SPLIT_OFFSET_CAPTURE);
- print_r($chars);
- ?>
执行结果如下所示:
- Array
- (
- [0] => Array
- (
- [0] => hypertext
- [1] => 0
- )
- [1] => Array
- (
- [0] => language
- [1] => 10
- )
- [2] => Array
- (
- [0] => programming
- [1] => 19
- )
- )
3.常用正则(参考作用)
一、校验数字的表达式
1 数字:
^[0-9]*$
2 n位的数字:
^\d{n}$
3 至少n位的数字:
^\d{n,}$
4 m-n位的数字:
^\d{m,n}$
5 零和非零开头的数字:
^(0|[1-9][0-9]*)$
6 非零开头的最多带两位小数的数字:
^([1-9][0-9]*)+(.[0-9]{1,2})?$
7 带1-2位小数的正数或负数:
^(\-)?\d+(\.\d{1,2})?$
8 正数、负数、和小数:
^(\-|\+)?\d+(\.\d+)?$
9 有两位小数的正实数:
^[0-9]+(.[0-9]{2})?$
10 有1~3位小数的正实数:
^[0-9]+(.[0-9]{1,3})?$
11 非零的正整数:
^[1-9]\d*$ 或 ^([1-9][0-9]*){1,3}$ 或 ^\+?[1-9][0-9]*$
12 非零的负整数:
^\-[1-9][]0-9"*$ 或 ^-[1-9]\d*$
13 非负整数:
^\d+$ 或 ^[1-9]\d*|0$
14 非正整数:
^-[1-9]\d*|0$ 或 ^((-\d+)|(0+))$
15 非负浮点数:
^\d+(\.\d+)?$ 或 ^[1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0$
16 非正浮点数:
^((-\d+(\.\d+)?)|(0+(\.0+)?))$ 或 ^(-([1-9]\d*\.\d*|0\.\d*[1-9]\d*))|0?\.0+|0$
17 正浮点数:
^[1-9]\d*\.\d*|0\.\d*[1-9]\d*$ 或 ^(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*))$
18 负浮点数:
^-([1-9]\d*\.\d*|0\.\d*[1-9]\d*)$ 或 ^(-(([0-9]+\.[0-9]*[1-9][0-9]*)|([0-9]*[1-9][0-9]*\.[0-9]+)|([0-9]*[1-9][0-9]*)))$
19 浮点数:
^(-?\d+)(\.\d+)?$ 或 ^-?([1-9]\d*\.\d*|0\.\d*[1-9]\d*|0?\.0+|0)$
二、校验字符的表达式
1 汉字:
^[\u4e00-\u9fa5]{0,}$
2 英文和数字:
^[A-Za-z0-9]+$ 或 ^[A-Za-z0-9]{4,40}$
3 长度为3-20的所有字符:
^.{3,20}$
4 由26个英文字母组成的字符串:
^[A-Za-z]+$
5 由26个大写英文字母组成的字符串:
^[A-Z]+$
6 由26个小写英文字母组成的字符串:
^[a-z]+$
7 由数字和26个英文字母组成的字符串:
^[A-Za-z0-9]+$
8 由数字、26个英文字母或者下划线组成的字符串:
^\w+$ 或 ^\w{3,20}$
9 中文、英文、数字包括下划线:
^[\u4E00-\u9FA5A-Za-z0-9_]+$
10 中文、英文、数字但不包括下划线等符号:
^[\u4E00-\u9FA5A-Za-z0-9]+$ 或 ^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$
11 可以输入含有^%&',;=?$\"等字符:
[^%&',;=?$\x22]+
12 禁止输入含有~的字符:
[^~\x22]+
三、特殊需求表达式
1、 Email地址:
^\w+([-+.]\w+)*@\w+([-.]\w+)*\.\w+([-.]\w+)*$
2 、域名:
[a-zA-Z0-9][-a-zA-Z0-9]{0,62}(/.[a-zA-Z0-9][-a-zA-Z0-9]{0,62})+/.?
3 、InternetURL:
[a-zA-z]+://[^\s]* 或 ^http://([\w-]+\.)+[\w-]+(/[\w-./?%&=]*)?$
4 、手机号码:
^(13[0-9]|14[5|7]|15[0|1|2|3|5|6|7|8|9]|18[0|1|2|3|5|6|7|8|9])\d{8}$
5 、电话号码("XXX-XXXXXXX"、"XXXX-XXXXXXXX"、"XXX-XXXXXXX"、"XXX-XXXXXXXX"、"XXXXXXX"和"XXXXXXXX):
^(\(\d{3,4}-)|\d{3.4}-)?\d{7,8}$
6 国内电话号码(0511-4405222、021-87888822):
\d{3}-\d{8}|\d{4}-\d{7}
7 、身份证号:
15或18位身份证:
^\d{15}|\d{18}$
15位身份证:
^[1-9]\d{7}((0\d)|(1[0-2]))(([0|1|2]\d)|3[0-1])\d{3}$
18位身份证:
^[1-9]\d{5}[1-9]\d{3}((0\d)|(1[0-2]))(([0|1|2]\d)|3[0-1])\d{4}$
8、 短身份证号码(数字、字母x结尾):
^([0-9]){7,18}(x|X)?$
或
^\d{8,18}|[0-9x]{8,18}|[0-9X]{8,18}?$
9 、帐号是否合法(字母开头,允许5-16字节,允许字母数字下划线):
^[a-zA-Z][a-zA-Z0-9_]{4,15}$
10 、密码(以字母开头,长度在6~18之间,只能包含字母、数字和下划线):
^[a-zA-Z]\w{5,17}$
11 、强密码(必须包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间):
^(?=.*\d)(?=.*[a-z])(?=.*[A-Z]).{8,10}$
12、 日期格式:
^\d{4}-\d{1,2}-\d{1,2}
13、 一年的12个月(01~09和1~12):
^(0?[1-9]|1[0-2])$
14 、一个月的31天(01~09和1~31):
^((0?[1-9])|((1|2)[0-9])|30|31)$
15 、钱的输入格式:
16 、1.有四种钱的表示形式我们可以接受:"10000.00" 和 "10,000.00", 和没有 "分" 的 "10000" 和 "10,000":
^[1-9][0-9]*$
17、 2.这表示任意一个不以0开头的数字,但是,这也意味着一个字符"0"不通过,所以我们采用下面的形式:
^(0|[1-9][0-9]*)$
18 、3.一个0或者一个不以0开头的数字.我们还可以允许开头有一个负号:
^(0|-?[1-9][0-9]*)$
19 、4.这表示一个0或者一个可能为负的开头不为0的数字.让用户以0开头好了.把负号的也去掉,因为钱总不能是负的吧.下面我们要加的是说明可能的小数部分:
^[0-9]+(.[0-9]+)?$
20 、5.必须说明的是,小数点后面至少应该有1位数,所以"10."是不通过的,但是 "10" 和 "10.2" 是通过的:
^[0-9]+(.[0-9]{2})?$
21、 6.这样我们规定小数点后面必须有两位,如果你认为太苛刻了,可以这样:
^[0-9]+(.[0-9]{1,2})?$
22、 7.这样就允许用户只写一位小数.下面我们该考虑数字中的逗号了,我们可以这样:
^[0-9]{1,3}(,[0-9]{3})*(.[0-9]{1,2})?$
23 、8.1到3个数字,后面跟着任意个 逗号+3个数字,逗号成为可选,而不是必须:
^([0-9]+|[0-9]{1,3}(,[0-9]{3})*)(.[0-9]{1,2})?$
24 、备注:这就是最终结果了,别忘了"+"可以用"*"替代如果你觉得空字符串也可以接受的话(奇怪,为什么?)最后,别忘了在用函数时去掉去掉那个反斜杠,一般的错误都在这里
25 、xml文件:
^([a-zA-Z]+-?)+[a-zA-Z0-9]+\\.[x|X][m|M][l|L]$
26 、中文字符的正则表达式:
[\u4e00-\u9fa5]
27 、双字节字符:
[^\x00-\xff]
(包括汉字在内,可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1))
28 、空白行的正则表达式:\n\s*\r (可以用来删除空白行)
29 、HTML标记的正则表达式:
<(\S*?)[^>]*>.*?</\1>|<.*? /> (网上流传的版本太糟糕,上面这个也仅仅能部分,对于复杂的嵌套标记依旧无能为力)
30 、首尾空白字符的正则表达式:^\s*|\s*$或(^\s*)|(\s*$) (可以用来删除行首行尾的空白字符(包括空格、制表符、换页符等等),非常有用的表达式)
31 、腾讯QQ号:[1-9][0-9]{4,} (腾讯QQ号从10000开始)
32 、中国邮政编码:[1-9]\d{5}(?!\d) (中国邮政编码为6位数字)
33、 IP地址:\d+\.\d+\.\d+\.\d+ (提取IP地址时有用)
Tags: php正则
相关文章
- ·php用正则判断是否为数字的方法(2019-11-11)
- ·php正则表达式是什么?(代码实例)(2020-02-25)
- ·PHP 正则判断中文UTF-8或GBK的思路及具体实现(2020-07-06)
- ·php中常见的sql攻击正则表达式汇总(2021-04-24)
- ·PHP中一些可以替代正则表达式函数的字符串操作函数(2021-04-26)
推荐文章
热门文章
最新评论文章
- 写给考虑创业的年轻程序员(10)
- PHP新手上路(一)(7)
- 惹恼程序员的十件事(5)
- PHP邮件发送例子,已测试成功(5)
- 致初学者:PHP比ASP优秀的七个理由(4)
- PHP会被淘汰吗?(4)
- PHP新手上路(四)(4)
- 如何去学习PHP?(2)
- 简单入门级php分页代码(2)
- php中邮箱email 电话等格式的验证(2)