当前位置:首页 > PHP教程 > php应用 > 列表

PHP实现简单爬虫的方法

发布:smiling 来源: PHP粉丝网  添加日期:2021-06-14 22:03:59 浏览: 评论:0 

这篇文章主要介绍了PHP实现简单爬虫的方法,涉及php页面抓取及分析的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下。

本文实例讲述了PHP实现简单爬虫的方法,分享给大家供大家参考,具体如下:

  1. <?php 
  2. /** 
  3.  * 爬虫程序 -- 原型 
  4.  * 
  5.  * 从给定的url获取html内容 
  6.  *  
  7.  * @param string $url  
  8.  * @return string  
  9.  */ 
  10. function _getUrlContent($url) { 
  11.   $handle = fopen($url"r"); 
  12.   if ($handle) { 
  13.     $content = stream_get_contents($handle, 1024 * 1024); 
  14.     return $content
  15.   } else { 
  16.     return false; 
  17.   }  
  18. }  
  19. /** 
  20.  * 从html内容中筛选链接 
  21.  *  
  22.  * @param string $web_content  
  23.  * @return array  
  24.  */ 
  25. function _filterUrl($web_content) { 
  26.   $reg_tag_a = '/<[a|A].*?href=[\'\"]{0,1}([^>\'\"\ ]*).*?>/'
  27.   $result = preg_match_all($reg_tag_a$web_content$match_result); 
  28.   if ($result) { 
  29.     return $match_result[1]; 
  30.   }  
  31. }  
  32. /** 
  33.  * 修正相对路径 
  34.  *  
  35.  * @param string $base_url  
  36.  * @param array $url_list  
  37.  * @return array  
  38.  */ 
  39. function _reviseUrl($base_url$url_list) { 
  40.   $url_info = parse_url($base_url); 
  41.   $base_url = $url_info["scheme"] . '://'
  42.   if ($url_info["user"] && $url_info["pass"]) { 
  43.     $base_url .= $url_info["user"] . ":" . $url_info["pass"] . "@"
  44.   }  
  45.   $base_url .= $url_info["host"]; 
  46.   if ($url_info["port"]) { 
  47.     $base_url .= ":" . $url_info["port"]; 
  48.   }  
  49.   $base_url .= $url_info["path"]; 
  50.   print_r($base_url); 
  51.   if (is_array($url_list)) { 
  52.     foreach ($url_list as $url_item) { 
  53.       if (preg_match('/^http/'$url_item)) { 
  54.         // 已经是完整的url 
  55.         $result[] = $url_item
  56.       } else { 
  57.         // 不完整的url 
  58.         $real_url = $base_url . '/' . $url_item
  59.         $result[] = $real_url
  60.       }  
  61.     }  
  62.     return $result
  63.   } else { 
  64.     return
  65.   }  
  66. }  
  67. /** 
  68.  * 爬虫 
  69.  *  
  70.  * @param string $url  
  71.  * @return array  
  72.  */ 
  73. function crawler($url) { 
  74.   $content = _getUrlContent($url); 
  75.   if ($content) { 
  76.     $url_list = _reviseUrl($url, _filterUrl($content)); 
  77.     if ($url_list) { 
  78.       return $url_list
  79.     } else { 
  80.       return ; 
  81.     }  
  82.   } else { 
  83.     return ; 
  84.   }  
  85. }  
  86. /** 
  87.  * 测试用主程序 
  88.  */ 
  89. function main() { 
  90.   $current_url = "http://hao123.com/"; //初始url 
  91.   $fp_puts = fopen("url.txt""ab"); //记录url列表 
  92.   $fp_gets = fopen("url.txt""r"); //保存url列表 
  93.   do { 
  94.     $result_url_arr = crawler($current_url); 
  95.     if ($result_url_arr) { 
  96.       foreach ($result_url_arr as $url) { 
  97.         fputs($fp_puts$url . "\r\n"); 
  98.       }  
  99.     }  
  100.   } while ($current_url = fgets($fp_gets, 1024)); //不断获得url 
  101. }  
  102. main(); 
  103. ?> 

希望本文所述对大家的php程序设计有所帮助。

Tags: PHP爬虫

分享到: