Php CURL模拟登陆论坛并采集数据实例
发布:smiling 来源: PHP粉丝网 添加日期:2014-07-07 16:35:54 浏览: 评论:0
要模拟浏览器访问网站,首选要学会观察浏览器是如何发送http报文的,以及网站服务器返回给浏览器 是什么样的内容,我推荐安装一个国外人开发的httpwatch的软件,最好搞个破解的版本,否则有些功能是使用不了的,这个软件安装完成之后是嵌入在 IE里的,启动Record,在地址栏输入网址后回车,它就会将浏览器和服务器之间的所有通讯扫描出来,让你一览无遗,关于这个软件的使用在本文不做介绍.
模拟浏览器登陆应用开发,最关键的地方是突破登陆验证,CURL技术不只支持http,还支持https,区别就在多了一层SSL加密传输,如果是要登陆 https网站,php记得要支持openssl,还是先拿一个例子来分析,代码如下:
- <?php
- $discuz_url = 'http://127.0.0.1/discuz/'; //论坛地址
- $login_url = $discuz_url . 'logging.php?action=login'; //登录页地址
- $post_fields = array();
- //以下两项不需要修改
- $post_fields['loginfield'] = 'username';
- $post_fields['loginsubmit'] = 'true';
- //用户名和密码,必须填写
- $post_fields['username'] = 'tianxin';
- $post_fields['password'] = '111111';
- //安全提问
- $post_fields['questionid'] = 0;
- $post_fields['answer'] = '';
- //@todo验证码
- $post_fields['seccodeverify'] = '';
- //获取表单FORMHASH
- $ch = curl_init($login_url);
- curl_setopt($ch, CURLOPT_HEADER, 0);
- curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
- $contents = curl_exec($ch);
- curl_close($ch);
- preg_match('/<inputs*type="hidden"s*name="formhash"s*value="(.*?)"s*/>/i', $contents, $matches);
- if (!emptyempty($matches)) {
- $formhash = $matches[1];
- } else {
- die('Not found the forumhash.');
- }
- //POST数据,获取COOKIE,cookie文件放在网站的temp目录下
- $cookie_file = tempnam('./temp', 'cookie');
- $ch = curl_init($login_url);
- curl_setopt($ch, CURLOPT_HEADER, 0);
- curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
- curl_setopt($ch, CURLOPT_POST, 1);
- curl_setopt($ch, CURLOPT_POSTFIELDS, $post_fields);
- curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file);
- curl_exec($ch);
- curl_close($ch);
- //取到了关键的cookie文件就可以带着cookie文件去模拟发帖,fid为论坛的栏目ID
- $send_url = $discuz_url . "post.php?action=newthread&fid=2";
- $ch = curl_init($send_url);
- curl_setopt($ch, CURLOPT_HEADER, 0);
- curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
- curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);
- $contents = curl_exec($ch);
- curl_close($ch);
- //这里的hash码和登陆窗口的hash码的正则不太一样,这里的hidden多了一个id属性
- preg_match('/<inputs*type="hidden"s*name="formhash"s*id="formhash"s*value="(.*?)"s*/>/i', $contents, $matches);
- if (!emptyempty($matches)) {
- $formhash = $matches[1];
- } else {
- die('Not found the forumhash.');
- }
- $post_data = array();
- //帖子标题
- $post_data['subject'] = 'test2';
- //帖子内容
- $post_data['message'] = 'test2';
- $post_data['topicsubmit'] = "yes";
- $post_data['extra'] = '';
- //帖子标签
- $post_data['tags'] = 'test';
- //帖子的hash码,这个非常关键!假如缺少这个hash码,discuz会警告你来路的页面不正确
- $post_data['formhash'] = $formhash;
- $ch = curl_init($send_url);
- curl_setopt($ch, CURLOPT_REFERER, $send_url); //伪装REFERER
- curl_setopt($ch, CURLOPT_HEADER, 0);
- curl_setopt($ch, CURLOPT_RETURNTRANSFER, 0);
- curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file);
- curl_setopt($ch, CURLOPT_POST, 1);
- curl_setopt($ch, CURLOPT_POSTFIELDS, $post_data);
- $contents = curl_exec($ch);
- curl_close($ch);
- //清理cookie文件
- unlink($cookie_file);
- ?>
CURL实现网站模拟登陆,代码如下:
- <?php
- $cookie_file=tempnam('./temp','cookie');$login_url='/bbs/logging.php?action=login&loginsubmit=yes';$post_fields='username=用户名&password=用户密码&referer=index.php&formhash=24eca8af&loginfield=username&questionid=0&loginsubmit=登录';$ch = curl_init($login_url);curl_setopt($ch,CURLOPT_HEADER,0);curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);curl_setopt($ch,CURLOPT_POST,1);curl_setopt($ch,CURLOPT_POSTFIELDS,$post_fields);curl_setopt($ch,CURLOPT_COOKIEJAR,$cookie_file);curl_exec($ch);curl_close($ch);$url='/bbs';$ch =curl_init($url);curl_setopt($ch,CURLOPT_HEADER,0);curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);curl_setopt($ch,CURLOPT_COOKIEFILE,$cookie_file);$contents=curl_exec($ch);echo $contents;curl_close($ch);
- ?>
Tags: Php CURL模拟登陆 采集数据
- 上一篇:PHP判断字符串编码是否为utf-8的程序代码
- 下一篇:PHP 读取大文件程序代码
相关文章
- ·PHP中通过Web 执行C/C++应用程序(2013-11-13)
- ·用PHP实现Ftp用户的在线管理(2013-11-13)
- ·用PHP自动把纯文本转换成Web页面(2013-11-13)
- ·用实例分析PHP5异常处理(2013-11-13)
- ·php5的simplexml解析错误(2013-11-13)
- ·PHP后门的隐藏技巧测试报告(2013-11-13)
- ·PHP缓存技术详谈(2013-11-27)
- ·利用PHP自定义错误处理器处理出错信息(2013-11-27)
- ·PHP作wap开发时遇到的问题(2013-11-27)
- ·php编写大型网站问题集(2013-11-27)
- ·php测试性能代码(2013-11-28)
- ·php 安全register globals设置为TRUE的危害(2013-11-28)
- ·XSLTProcessor 中 registerPHPFunctions 后无法调用 php 函数(2013-11-30)
- ·PHP中常用三种缓存技术(2013-11-30)
- ·新浪微博PHP版SDK的导致20007错误(2013-12-03)
- ·linux中phpMyAdmin错误提示Wrong permissions on configuration file, should no(2013-12-04)
推荐文章
热门文章
最新评论文章
- 写给考虑创业的年轻程序员(10)
- PHP新手上路(一)(7)
- 惹恼程序员的十件事(5)
- PHP邮件发送例子,已测试成功(5)
- 致初学者:PHP比ASP优秀的七个理由(4)
- PHP会被淘汰吗?(4)
- PHP新手上路(四)(4)
- 如何去学习PHP?(2)
- 简单入门级php分页代码(2)
- php中邮箱email 电话等格式的验证(2)