博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
QQ空间Python爬虫(1)---网站分析
阅读量:5960 次
发布时间:2019-06-19

本文共 1035 字,大约阅读时间需要 3 分钟。

闲来无事准备写一个爬虫来爬取自己QQ空间的所有说说和图片-。-

 

首先准备工作,进入手机版QQ空间,分析页面:

 

 

 

 

我们发现,手机版空间翻页模式是采用瀑布流翻页(查看更多),而非传统翻页模式,所以我们需要来分析一下点击“查看更多”时发送的请求:

 

 

 

可以发现,上面红框中的xhr就是点击“查看更多”时发送的请求,我们再进一步分析:

 

 

 

如图,红框中的request urlrequest headers是我们需要的信息,首先我们在代码中加入请求头headers:

1 headers = {2     'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',3     'accept-encoding': 'gzip, deflate, br',4     'accept-language': 'zh-CN,zh;q=0.8',5     'cache-control': 'max-age=0',6     'cookie': 'xxxxxx',7     'upgrade-insecure-requests': '1',8     'user-agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Mobile Safari/537.36'9 }

cookie可以用来模拟登陆,但是注意此处的cookie会过期,需要每隔一段时间更新cookie内容,比较麻烦,需要找一个更好的解决方案-。-

 

 

 

进一步分析Request URL:

经分析得知,关键在于红线的两个地方,%3D后面的数字代表说说条数,范围0-1758(本人一共1758条说说-。-),count代表单次请求加载的说说数,试验得知最大为count=40。

 

 

访问此url,我们发现返回了全为json数据的页面:

 

 

由此,我们可以大概确定爬虫的编写思路,访问此Url,以最大加载量40为单位,循环到1758,解析每次访问所得的json数据即可爬取我们的空间说说和图片信息了。

 下一章:

 

转载于:https://www.cnblogs.com/neilshi/p/7879592.html

你可能感兴趣的文章
第一个JSP程序
查看>>
fromkeys()
查看>>
MySQL start and stop
查看>>
github中的登录认证 转自http://www.wojilu.com/Forum1/Topic/2235
查看>>
eclipse调试运行
查看>>
一次ORA-03113错误解决
查看>>
一道逻辑题,我还是想不出来,太难了
查看>>
Redis数据持久化机制AOF原理分析一---转
查看>>
js中日期转换为时间戳
查看>>
[044] 微信公众平台开发教程第20篇-新手解惑40则
查看>>
将ASCII字符串转换为UNICODE字符串
查看>>
Linux远程上传、下载文件的方法
查看>>
CentOS6.2 下安装OpenGL开发库
查看>>
模式识别之中文分词
查看>>
Web Service那点事
查看>>
TCP/IP协议体系结构简介
查看>>
WebApi身份认证解决方案:Basic基础认证
查看>>
js求时间差
查看>>
kylin 使用RESTful API 请求
查看>>
hive学习路线
查看>>