php 获取网页内的图片地址正则表达式
发布:smiling 来源: PHP粉丝网 添加日期:2014-07-18 10:34:52 浏览: 评论:0
获取网页中的图片地址并保存下载我们需要采集页面,然后再利用正则表达式获取页面中的图片url,然后我们再通过相关的php函数把图片保存到指定本地硬盘了.
1.获取地址
这个功能最主要的就是用正则表达式来匹配页面源码里的图片地址了,这里用到得正则表达式是:
/<img.*src="(.*)"\s*.*>/iU
首先通过PHP自带的读取文件函数来获得请求页面的html代码,然后用正则表达式来匹配里面的src地址,这里有两个注意点:
file_get_content
只能获取到静态的页面内容,也就是说如果你在页面里看到的是图片是通过Javascript来展示的,通过这个工具是获取不到图片信息的.
有的网站对file_get_content 这个函数做了些限制,如果不是通过浏览器打开的网页,服务器是拒绝请求的,这个时候我们就需要给php 程序添加一个配置信息,让采集的程序能够模拟一个留言器的UA(user agent),具体的做法可以通过下面的代码来实现://现在模拟的是一个Window 环境下的浏览器
ini_set('user_agent','Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; 4399Box.560; .NET4.0C; .NET4.0E)');
通过以上两点的处理,获取网页源码就没有问题了,唯一要做的就是用正则表达式对图片地址的匹配.
例子1,代码如下:
- /**
- * 获取替换文章中的图片路径
- * @param string $xstr 内容 采集网页的content
- * @param string $keyword 创建照片的文件名 我写upimg
- * @param string $oriweb 网址 一般写null
- * @return string
- *
- */
- function replaceimg($xstr,$keyword, $oriweb){
- $basedir = dirname(__FILE__);
- //保存路径
- $d = date('Ym', time());
- $dirslsitss = $basedir.'/../uploads/'.$keyword.'/'.$d;//分类是否存在
- if(!is_dir($dirslsitss)) {
- @mkdir($dirslsitss, 0777);
- }
- //匹配图片的src
- preg_match_all('#<img.*?src="([^"]*)"[^>]*>#i', $xstr, $match);
- foreach($match[1] as $imgurl){
- $imgurl = $imgurl;
- if(is_int(strpos($imgurl, 'http'))){
- $arcurl = $imgurl;
- } else {
- $arcurl = $oriweb.$imgurl;
- }
- $img=file_get_contents($arcurl);
- if(!emptyempty($img)) {
- //保存图片到服务器
- $fileimgname = time()."-".rand(1000,9999).".jpg";
- $filecachs=$dirslsitss."/".$fileimgname;
- $fanhuistr = file_put_contents( $filecachs, $img );
- $saveimgfile = "/uploads/$keyword"."/".$d."/".$fileimgname;
- $xstr=str_replace($imgurl,$saveimgfile,$xstr);
- }
- }
- return $xstr;
- }
可能有些朋友也知道file_get_contents性能不怎么样,我们可使用curl来获取,代码如下:
- /*
- *功能:php完美实现下载远程图片保存到本地
- *参数:文件url,保存文件目录,保存文件名称,使用的下载方式
- *当保存文件名称为空时则使用远程文件原来的名称
- */
- function getImage($url,$save_dir='',$filename='',$type=0){
- if(trim($url)==''){
- return array('file_name'=>'','save_path'=>'','error'=>1);
- }
- if(trim($save_dir)==''){
- $save_dir='./';
- }
- if(trim($filename)==''){//保存文件名
- $ext=strrchr($url,'.');
- if($ext!='.gif'&&$ext!='.jpg'){
- return array('file_name'=>'','save_path'=>'','error'=>3);
- }
- $filename=time().$ext;
- }
- if(0!==strrpos($save_dir,'/')){
- $save_dir.='/';
- }
- //创建保存目录
- if(!file_exists($save_dir)&&!mkdir($save_dir,0777,true)){
- return array('file_name'=>'','save_path'=>'','error'=>5);
- }
- //获取远程文件所采用的方法
- if($type){
- $ch=curl_init();
- $timeout=5;
- curl_setopt($ch,CURLOPT_URL,$url);
- curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
- curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,$timeout);
- $img=curl_exec($ch);
- curl_close($ch);
- }else{
- ob_start();
- readfile($url);
- $img=ob_get_contents();
- ob_end_clean();
- }
- //$size=strlen($img);
- //文件大小
- $fp2=@fopen($save_dir.$filename,'a');
- fwrite($fp2,$img);
- fclose($fp2);
- unset($img,$url);
- return array('file_name'=>$filename,'save_path'=>$save_dir.$filename,'error'=>0);
- }
Tags: php正则 表达式 图片地址
相关文章
- ·php正则连接中文本程序(2013-11-12)
- ·三分钟学会PHP正则表达式(2013-11-13)
- ·巧用PHP正则表达式判断IP地址(2013-11-13)
- ·php用户注册时常用的一些检验函数总结(2014-01-05)
- ·php中ip地址 email格式 电话号码正则验证(2014-01-06)
- ·php正则字符串中图片地址表达式(2014-01-15)
- ·php 汉字正则表达式实例详解(2014-07-07)
- ·php正则获取关键字、标题、网页描述代码(2014-07-24)
- ·php正则表达式替换URL链接地址为指定url(2014-07-26)
- ·php中网址、email、手机号码正则表达代码(2014-07-29)
- ·php中常用的正则表达式规则总结(2014-07-30)
- ·php中固定电话号码和手机号码正则表达式验证(2014-07-30)
- ·php利用正则过滤链接、标签,空格,换行符程序(2014-07-30)
- ·php 手机号码正则表达试程序代码(2014-07-31)
- ·php正则表达式之正则字符中的图片地址(2014-08-01)
- ·php正则之删除或转换字符串中url地址(2014-08-02)
推荐文章
热门文章
最新评论文章
- 写给考虑创业的年轻程序员(10)
- PHP新手上路(一)(7)
- 惹恼程序员的十件事(5)
- PHP邮件发送例子,已测试成功(5)
- 致初学者:PHP比ASP优秀的七个理由(4)
- PHP会被淘汰吗?(4)
- PHP新手上路(四)(4)
- 如何去学习PHP?(2)
- 简单入门级php分页代码(2)
- php中邮箱email 电话等格式的验证(2)