PHP file_get_contents采集程序开发教程详解
发布:smiling 来源: PHP粉丝网 添加日期:2014-07-21 10:56:28 浏览: 评论:0
file_get_contents() 远程文件获取函数,用来获取远程页面内容
preg_match_all()进行全局正则表达式匹配,匹配多次,用于匹配列表
preg_match ()进行正则表达式匹配,匹配一次,用于匹配终端
preg_replace ()进行正则表达式替换,用于过滤终端
具体步骤
Step 1 获取单页列表 和 单篇文章内容
在批量采集列表和内容之前,我们先将网站的单页列表和单篇文章的内容采集作为测试正则表达式对错.
列表页采集文章的链接地址,代码如下:
- <?php
- //获取列表
- $url = '/s2005/shishi.shtml';
- $con=file_get_contents($url);
- //写正则获取列表中的文章链接
- /*范例 : <a test=a href='/20130418/n373177942.shtml'
- target='_blank'>湖南沅陵输电工程沉船事故共致6人死亡</a>*/
- $preg = "|<a test=a href='(.*)' target='_blank'>(.*)</a>|iUs";
- // 正则中的/i表示 大小写不敏感 /U 非贪婪匹配 /s 点号可以匹配换行符
- preg_match_all($preg,$con,$arr);
- //var_dump($arr);
- /*
- array(3) {
- [0]=>
- array(40) {
- [0]=>
- string(126) "<a test=a href='/20130418/n373180618.shtml'
- target='_blank'>甘肃河西走廊遭大风沙尘侵袭 瞬时最大风力9级</a>"
- [1]=>
- string(112) "<a test=a href='/20130418/n373180612.shtml'
- target='_blank'>一线城市住宅地价全部环比上涨</a>"
- ... ...
- [39]=>
- string(124) "<a test=a href='/20130418/n373161633.shtml'
- target='_blank'>湖南衡阳发生一起枪击案致1人死 警方正缉凶</a>"
- }
- [1]=>
- array(40) {
- [0]=>
- string(46) "/20130418/n373180618.shtml"
- [1]=>
- string(46) "/20130418/n373180612.shtml"
- ... ...
- [39]=>
- string(46) "/20130418/n373161633.shtml"
- }
- [2]=>
- array(40) {
- [0]=>
- string(42) "甘肃河西走廊遭大风沙尘侵袭 瞬时最大风力9级"
- [1]=>
- string(28) "一线城市住宅地价全部环比上涨"
- ... ...
- [39]=>
- string(40) "湖南衡阳发生一起枪击案致1人死 警方正缉凶"
- }
- }
- */
- ?>
单篇文章的采集,代码如下:
- <?php
- $url = 'http://www.phpfensi.com';
- $con = file_get_contents($url);
- //正则表达式分为标题和内容
- $title_preg = "|<h1>(.*)</h1>|iUs";
- $content_preg = "|<!-- 正文 -->(.*)<!-- 分享 -->|iUs";
- preg_match($title_preg,$con,$title_arr);
- preg_match($content_preg,$con,$content_arr);
- ?>
Tags: file_get_contents 采集程序
相关文章
- ·php file_get_contents读取大容量文件方法(2014-03-30)
- ·php 中file_get_contents超时问题的解决方法(2014-07-18)
- ·file file_get_contents HTTP request failed(2014-08-17)
- ·php curl、fopen、file_get_contents实例代码(2014-08-17)
- ·php中file_get_contents()导致nginx出现504(2014-09-13)
- ·php file_get_contents返回空 无效解决办法(2014-09-13)
- ·php中file_get_contents 出现HTTP request failed! ...(2014-09-20)
- ·php提示Warning: file_get_contents(): couldn’t resolve(2014-09-20)
- ·解决PHP中file_get_contents抓取网页中文乱码问题(2014-09-21)
- ·如何使用php中的file_get_contents()函数将文件内容读入字符串(2020-01-07)
- ·php file_get_contents抓取Gzip网页乱码的三种解决方法(2020-06-23)
- ·php采用file_get_contents代替使用curl实例(2021-04-24)
- ·PHP中使用file_get_contents抓取网页中文乱码问题解决方法(2021-05-03)
- ·PHP中使用file_get_contents post数据代码例子(2021-05-14)
- ·PHP中file_get_contents函数抓取https地址出错的解决方法(两种方法)(2021-06-18)
- ·php利用fopen实现简单的网页采集程序(2014-09-22)
推荐文章
热门文章
最新评论文章
- 写给考虑创业的年轻程序员(10)
- PHP新手上路(一)(7)
- 惹恼程序员的十件事(5)
- PHP邮件发送例子,已测试成功(5)
- 致初学者:PHP比ASP优秀的七个理由(4)
- PHP会被淘汰吗?(4)
- PHP新手上路(四)(4)
- 如何去学习PHP?(2)
- 简单入门级php分页代码(2)
- php中邮箱email 电话等格式的验证(2)