php curl函数采集网页程序代码
发布:smiling 来源: PHP粉丝网 添加日期:2015-04-11 17:07:23 浏览: 评论:0
curl来抓取网页内容是一个性能比较好的函数了,我们通常会使用它来快速模仿用户去访问我们要抓取的网页了,下面看一个例子有兴趣的朋友可进入参考.
早上想写了一个抓取是京东618魅族专题页的抓取,然后想着自动下单购买,尼玛,算了,太多了,写到判断是否开始了,商品价格进行了变化,后边工程量有点大就懒的写了,如果要完善的话就需要写模拟登陆(这个不难)加入购物车,下单,下单的时候判断一下价格,如果价格个官方优惠价格相同就下单,不同就接着去抓,算了,懒的写了,下边是部分代码:
- <?php
- $cookie_file = dirname(__FILE__)."/jd.cookie";
- //专题首页url
- $indexurl = 'http://sale.jd.com/act/BOxFsKPGNZwpet4.html';
- //获取专题页到产品详情的地址
- $indexstr = get($indexurl);
- //var_dump($indexstr);exit;
- preg_match_all('/<area shape="rect" coords="802,199,941,244" href="(.*?)"/is',$indexstr,$data); //开源软件:phpfensi.com
- $tmp = pathinfo($data[1][0]);
- $pinfo['id'] = $tmp['filename'];
- $pinfo['url'] = $data[1][0];
- unset($tmp,$data);
- $pinfo = getPrice($pinfo['id']);
- if($pinfo['mainproduct']['price'] == 1799){
- addcar();
- }else{
- echo "还没有开始抢购";
- }
- function get($url,$flag=true){
- global $cookie_file;
- $headerArray = array(
- "content-type: application/x-www-form-urlencoded;charset=UTF-8",
- );
- //echo $cookie_file;exit;
- $ch = curl_init();
- curl_setopt($ch,CURLOPT_URL,$url);
- curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
- curl_setopt($ch,CURLOPT_USERAGENT,'"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0"');
- curl_setopt($ch,CURLOPT_HTTPHEADER,$headerArray);//设置头信息
- curl_setopt($ch,CURLOPT_COOKIEFILE,$cookie_file);
- curl_setopt($ch,CURLOPT_COOKIEJAR,$cookie_file);
- $return = curl_exec($ch);
- curl_close($ch);
- if($flag)$return = gzdecode($return);
- return $return;
- }
- function getPrice($id){
- $priceUrl = "http://rs.jd.com/accessorie/newServiceWhite.jsonp?sku=".$id;
- $data = json_decode(get($priceUrl,false),true);
- return $data;
- }
- function addcar(){
- global $pinfo;
- $addurl = "http://gate.jd.com/InitCart.aspx?pid=".$pinfo['mainproduct']['sku']."&pcount=1&ptype=1";
- echo get($addurl,false);
- }
- ?>
php 在curl抓取的时候出现乱码
用站长工具查看我们抓取的网而不是使用了gzip压缩了,如果有返回"Accept-Encoding:gzip,deflate" 就是打开了gzip了,我们只要如下操作,代码如下:
- $res=curl_exec($ch1);
- if(!emptyempty($res)){ //save capcha
- echo gzdecode($res);
- }
GBK或者UTF8汉字之类的乱码,代码如下:
mb_convert_encoding($str, 'utf-8', 'GBK,UTF-8,ASCII');就行了
我们设置页面为GBK兼容GB2312,GB2312是GBK的子集,所有GB2312编码的用GBK都能正确解出来.
Tags: curl函数采集 curl采集网页
推荐文章
热门文章
最新评论文章
- 写给考虑创业的年轻程序员(10)
- PHP新手上路(一)(7)
- 惹恼程序员的十件事(5)
- PHP邮件发送例子,已测试成功(5)
- 致初学者:PHP比ASP优秀的七个理由(4)
- PHP会被淘汰吗?(4)
- PHP新手上路(四)(4)
- 如何去学习PHP?(2)
- 简单入门级php分页代码(2)
- php中邮箱email 电话等格式的验证(2)