php利用fopen实现简单的网页采集程序
发布:smiling 来源: PHP粉丝网 添加日期:2014-09-22 13:18:29 浏览: 评论:0
这个采集程序是一个非常简单的程序了,个人认为不适合于大量数据采集了单页还是没有问题了,因为fopen函数对于远程文件操作与多线程时是非常的不理想的,这个只是一个作者写的觉得好玩合出来了,代码如下:
- /**
- * 根据URL采集网页内容
- *
- * @param string $url 链接地址
- * @return string
- */
- private function fetchbyurl($url){
- $handle = fopen($url, ‘r’);
- $content = ”;
- while (!feof($handle)){
- $content .= fgets($handle, 10000);
- }
- return $content;
- //?$this->utf8_iconv($content):”;
- }
- /*获取所有匹配的内容
- * @param string $str 内容
- * @param string $start 起始匹配
- * @param string $end 中止匹配
- * @return array
- */
- private function utf8_iconv($content){
- return iconv(‘GBK’, ‘UTF-8′, $content);
- }
- private function strCutAll($str,$start,$end){
- $content = explode($start,$str);
- $matchs = array();
- $sum = count($content);
- for( $i = 1;$i < $sum;$i++ ){
- $tmp = explode($end,$content[$i]);
- $matchs[] = $tmp[0];
- unset($tmp);
- }
- return $matchs;
- }
- /*获取第一个匹配的内容
- * @param string $str 内容
- * @param string $start 起始匹配
- * @param string $end 中止匹配
- * @return string
- */
- private function strCut($str, $start, $end){
- $content = strstr( $str, $start );
- $content = substr( $content, strlen( $start ), strpos( $content, $end ) - strlen( $start ) );
- return $content;
- }
测试,实例代码如下:
- /*采集程序*/header("content-Type: text/html; charset=utf-8"); //$nr = file_get_contents(‘/webback/php/php-yi-ju-hua-hou-men-zhuan’); $nr = $this->fetchbyurl(‘/webback/php/php-yi-ju-hua-hou-men-zhuan’);//推荐,还可以用curl dump($this->strCut($nr,’<div class="context">’,'<div class="betterrelated">’));//得到内容。需要进一步过滤用(preg_match_all) dump($this->strCutAll($nr,’<title>’,'</title>’)); 得到标题
- //开源代码phpfensi.com
Tags: fopen网页采集 php采集程序
- 上一篇:php防止网站被f5刷新的例子
- 下一篇:php中静态化生成的方法
相关文章
- ·php采集天气预报2段代码(2015-04-11)
推荐文章
热门文章
最新评论文章
- 写给考虑创业的年轻程序员(10)
- PHP新手上路(一)(7)
- 惹恼程序员的十件事(5)
- PHP邮件发送例子,已测试成功(5)
- 致初学者:PHP比ASP优秀的七个理由(4)
- PHP会被淘汰吗?(4)
- PHP新手上路(四)(4)
- 如何去学习PHP?(2)
- 简单入门级php分页代码(2)
- php中邮箱email 电话等格式的验证(2)