php 敏感词过滤高级版
发布:smiling 来源: PHP粉丝网 添加日期:2015-12-10 14:05:24 浏览: 评论:0
前面介绍过一个过滤了些特殊字符的php程序,下面我们升级一下这个敏感词过滤函数更强大了有了它再也不怕敏感词中间加空格或者其他标点符号了。
只要用户可以发言的地方,就可能出现广告或者其他敏感词,因此必须加入敏感词过滤机制来保持站点的”纯洁”。
过滤机制:加入php关键字正则匹配.
- //$str 为用户数据
- function wordFilter($str)
- {
- /*
- 获取敏感词列表
- 敏感词的存储方法:
- 1:存储在txt文件中(一般的方法)
- 2:存储在缓存(比较好的方法)
- 我是存储在memcachd中。
- */
- $words = getSensitiveWords();
- foreach ($words as $word)
- {
- $preg_letter = '/^[A-Za-z]+$/';
- if (preg_match($preg_letter, $str))
- {//匹配中文
- $str = strtolower($str);
- $pattern_1 = '/([^A-Za-z]+' . $word . '[^A-Za-z]+)|([^A-Za-z]+' . $word . '\s+)|(\s+' . $word . '[^A-Za-z]+)|(^' . $word . '[^A-Za-z]+)|([^A-Za-z]+' . $word.'$)/';
- //敏感词两边不为空
- if (preg_match($pattern_1, $str))
- {
- $flag = TRUE;
- }
- $pattern_2 = '/(^' . $word . '\s+)|(\s+' . $word . '\s+)|(\s+' . $word . '$)|(^' . $word . '$)/';
- //敏感词两边可以为空格
- if (preg_match($pattern_2, $str))
- {
- $flag = TRUE;
- } //phpfensi.com
- }
- else
- {//匹配英文字符串,大小写不敏感
- $pattern = '/\s*' . $word . '\s*/';
- if (preg_match($pattern, $str))
- {
- $flag = TRUE;
- }
- }
- }
- }
存在问题:
如果单纯只加入关键字匹配,用户反过滤的方法五花八门,包括中间加入空格或者其他标点符号.
例子:
敏感词:扣扣
用户处理后:
扣 扣
扣,扣
扣@扣
扣1扣
这时候代码的正则匹配就可能匹配不出来.
解决办法:
先对用户数据去除所有的标点符号和一些特殊字符,然后再进行敏感词判断.
代码:
- $flag_arr=array('?','!','¥','(',')',':','‘','’','“','”','《','》',',','…','。','、','nbsp','】','【','~');
- //phpfensi.com
- $content_filter=preg_replace('/\s/','',preg_replace("/[[:punct:]]/",'',strip_tags(html_entity_decode(str_replace($flag_arr,'',$content),ENT_QUOTES,'UTF-8'))));
$content_filter 就是处理后的用户数据,然后再进行 wordFilter($content_filter ) 过滤操作.
Tags: php敏感词 php过滤
推荐文章
热门文章
最新评论文章
- 写给考虑创业的年轻程序员(10)
- PHP新手上路(一)(7)
- 惹恼程序员的十件事(5)
- PHP邮件发送例子,已测试成功(5)
- 致初学者:PHP比ASP优秀的七个理由(4)
- PHP会被淘汰吗?(4)
- PHP新手上路(四)(4)
- 如何去学习PHP?(2)
- 简单入门级php分页代码(2)
- php中邮箱email 电话等格式的验证(2)