当前位置:首页 > PHP教程 > php高级应用 > 列表

Php CURL模拟登陆论坛并采集数据实例

发布:smiling 来源: PHP粉丝网  添加日期:2014-07-07 16:35:54 浏览: 评论:0 

要模拟浏览器访问网站,首选要学会观察浏览器是如何发送http报文的,以及网站服务器返回给浏览器 是什么样的内容,我推荐安装一个国外人开发的httpwatch的软件,最好搞个破解的版本,否则有些功能是使用不了的,这个软件安装完成之后是嵌入在 IE里的,启动Record,在地址栏输入网址后回车,它就会将浏览器和服务器之间的所有通讯扫描出来,让你一览无遗,关于这个软件的使用在本文不做介绍.

模拟浏览器登陆应用开发,最关键的地方是突破登陆验证,CURL技术不只支持http,还支持https,区别就在多了一层SSL加密传输,如果是要登陆 https网站,php记得要支持openssl,还是先拿一个例子来分析,代码如下:

  1. <?php 
  2. $discuz_url = 'http://127.0.0.1/discuz/'; //论坛地址 
  3. $login_url = $discuz_url . 'logging.php?action=login'//登录页地址 
  4.  
  5. $post_fields = array(); 
  6. //以下两项不需要修改 
  7. $post_fields['loginfield'] = 'username'
  8. $post_fields['loginsubmit'] = 'true'
  9. //用户名和密码,必须填写 
  10. $post_fields['username'] = 'tianxin'
  11. $post_fields['password'] = '111111'
  12. //安全提问 
  13. $post_fields['questionid'] = 0; 
  14. $post_fields['answer'] = ''
  15. //@todo验证码 
  16. $post_fields['seccodeverify'] = ''
  17.  
  18. //获取表单FORMHASH 
  19. $ch = curl_init($login_url); 
  20. curl_setopt($ch, CURLOPT_HEADER, 0); 
  21. curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
  22. $contents = curl_exec($ch); 
  23. curl_close($ch); 
  24. preg_match('/<inputs*type="hidden"s*name="formhash"s*value="(.*?)"s*/>/i'$contents$matches); 
  25. if (!emptyempty($matches)) { 
  26.     $formhash = $matches[1]; 
  27. else { 
  28.     die('Not found the forumhash.'); 
  29.  
  30. //POST数据,获取COOKIE,cookie文件放在网站的temp目录下 
  31. $cookie_file = tempnam('./temp''cookie'); 
  32.  
  33. $ch = curl_init($login_url); 
  34. curl_setopt($ch, CURLOPT_HEADER, 0); 
  35. curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
  36. curl_setopt($ch, CURLOPT_POST, 1); 
  37. curl_setopt($ch, CURLOPT_POSTFIELDS, $post_fields); 
  38. curl_setopt($ch, CURLOPT_COOKIEJAR, $cookie_file); 
  39. curl_exec($ch); 
  40. curl_close($ch); 
  41.  
  42. //取到了关键的cookie文件就可以带着cookie文件去模拟发帖,fid为论坛的栏目ID 
  43. $send_url = $discuz_url . "post.php?action=newthread&fid=2"
  44.  
  45.  
  46. $ch = curl_init($send_url); 
  47. curl_setopt($ch, CURLOPT_HEADER, 0); 
  48. curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1); 
  49. curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file); 
  50. $contents = curl_exec($ch); 
  51. curl_close($ch); 
  52.  
  53. //这里的hash码和登陆窗口的hash码的正则不太一样,这里的hidden多了一个id属性 
  54. preg_match('/<inputs*type="hidden"s*name="formhash"s*id="formhash"s*value="(.*?)"s*/>/i'$contents$matches); 
  55. if (!emptyempty($matches)) { 
  56.     $formhash = $matches[1]; 
  57. else { 
  58.     die('Not found the forumhash.'); 
  59.  
  60.  
  61. $post_data = array(); 
  62. //帖子标题 
  63. $post_data['subject'] = 'test2'
  64. //帖子内容 
  65. $post_data['message'] = 'test2'
  66. $post_data['topicsubmit'] = "yes"
  67. $post_data['extra'] = ''
  68. //帖子标签 
  69. $post_data['tags'] = 'test'
  70. //帖子的hash码,这个非常关键!假如缺少这个hash码,discuz会警告你来路的页面不正确 
  71. $post_data['formhash'] = $formhash
  72.  
  73.  
  74. $ch = curl_init($send_url); 
  75. curl_setopt($ch, CURLOPT_REFERER, $send_url);       //伪装REFERER 
  76. curl_setopt($ch, CURLOPT_HEADER, 0); 
  77. curl_setopt($ch, CURLOPT_RETURNTRANSFER, 0); 
  78. curl_setopt($ch, CURLOPT_COOKIEFILE, $cookie_file); 
  79. curl_setopt($ch, CURLOPT_POST, 1); 
  80. curl_setopt($ch, CURLOPT_POSTFIELDS, $post_data); 
  81. $contents = curl_exec($ch); 
  82. curl_close($ch); 
  83.  
  84. //清理cookie文件 
  85. unlink($cookie_file); 
  86. ?> 

CURL实现网站模拟登陆,代码如下:

  1. <?php 
  2. $cookie_file=tempnam('./temp','cookie');$login_url='/bbs/logging.php?action=login&amp;loginsubmit=yes';$post_fields='username=用户名&password=用户密码&referer=index.php&formhash=24eca8af&loginfield=username&questionid=0&loginsubmit=登录';$ch = curl_init($login_url);curl_setopt($ch,CURLOPT_HEADER,0);curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);curl_setopt($ch,CURLOPT_POST,1);curl_setopt($ch,CURLOPT_POSTFIELDS,$post_fields);curl_setopt($ch,CURLOPT_COOKIEJAR,$cookie_file);curl_exec($ch);curl_close($ch);$url='/bbs';$ch =curl_init($url);curl_setopt($ch,CURLOPT_HEADER,0);curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);curl_setopt($ch,CURLOPT_COOKIEFILE,$cookie_file);$contents=curl_exec($ch);echo $contents;curl_close($ch); 
  3. ​?> 

Tags: Php CURL模拟登陆 采集数据

分享到: