当前位置:首页 > PHP教程 > php应用 > 列表

php使用curl代理实现抓取数据的方法

发布:smiling 来源: PHP粉丝网  添加日期:2018-07-26 13:27:35 浏览: 评论:0 
  1. <?php 
  2. define ('IS_PROXY', true );//是否启用代理 
  3. functionasync_get_url($url_array,$wait_usec= 0) 
  4.   if(!is_array($url_array)) 
  5.     returnfalse; 
  6.   $wait_usec=intval($wait_usec); 
  7.   $data =array(); 
  8.   $handle=array(); 
  9.   $running= 0; 
  10.   $mh= curl_multi_init();// 开启多线程 
  11.   $i= 0; 
  12.   foreach($url_arrayas$url) { 
  13.     $ch= curl_init(); 
  14.     if(IS_PROXY) { 
  15.     //以下代码设置代理服务器 
  16.     //代理服务器地址http://www.cnproxy.com/proxy1.html !!Hong Kong, China的速度比较好 
  17.     curl_setopt ($ch, CURLOPT_PROXY,'110.4.12.170:80'); 
  18.     } 
  19.     curl_setopt($ch, CURLOPT_URL,$url); 
  20.     curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);// return don't print 
  21.     curl_setopt($ch, CURLOPT_TIMEOUT, 30);//设置超时时间 
  22.     curl_setopt($ch, CURLOPT_USERAGENT,'Mozilla/4.0 (compatible; MSIE 5.01; Windows NT 5.0)'); 
  23.     curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);// 302 redirect 
  24.     curl_setopt($ch, CURLOPT_MAXREDIRS, 7);//HTTp定向级别 
  25.     curl_multi_add_handle($mh,$ch);// 把 curl resource 放进 multi curl handler 里 
  26.     $handle[$i++] =$ch
  27.   } 
  28.   /* 执行 */ 
  29.   do
  30.     $mrc= curl_multi_exec($mh,$running); 
  31.     if($wait_usec> 0)/* 每个 connect 要间隔多久 */ 
  32.       usleep($wait_usec);// 250000 = 0.25 sec 
  33.   }while($mrc== CURLM_CALL_MULTI_PERFORM); 
  34.   while($running&&$mrc== CURLM_OK) { 
  35.     if(curl_multi_select($mh) != -1) { 
  36.       do
  37.         $mrc= curl_multi_exec($mh,$running); 
  38.       }while($mrc== CURLM_CALL_MULTI_PERFORM); 
  39.     } 
  40.   } 
  41.   /* 读取资料 */ 
  42.   foreach($handleas$i=>$ch) { 
  43.     $content= curl_multi_getcontent($ch); 
  44.     $data[$i] = (curl_errno($ch) == 0) ?$content: false; 
  45.   } 
  46.   /* 移除 handle*/ 
  47.   foreach($handleas$ch) { 
  48.     curl_multi_remove_handle($mh,$ch); 
  49.   } 
  50.   curl_multi_close($mh); 
  51.   return$data
  52. $urls=array('http://map.baidu.com'); 
  53. $re= async_get_url($urls); 
  54. echo$re[0]; 
  55. ?> 

Tags: 方法 数据

分享到: