最近在研究爬虫,发现多个网站都有 js 翻页的内容,实在不想一个个配模板用 xpath 来解析.想请教各位大神有没有好的思路.
1
ferrum 2015 年 11 月 8 日 via iPhone
JS 翻页一般也是发送 post 请求的,看看包的内容,然后模拟。
|
4
eoo 2015 年 11 月 9 日 via Android
无非就是用了无刷新翻页而已 ,抓包就能看到 GET 的参数 。
|
5
ysjdx OP |
6
breeswish 2015 年 11 月 9 日
百度对于 ajax 翻页的当然是抓不到了 ╮(╯▽╰)╭
|
8
oott123 2015 年 11 月 9 日 via Android
通用的? CasperJS 行么
|
9
Arrowing 2015 年 11 月 9 日
用 phantomjs 咯, casperjs 也是基于 phantomjs 开发的
后台的 webkit ,满足你的要求 |
10
tonyVex 2015 年 11 月 9 日
有些网站的数据都是 ajax 生成出来,那样的怎么处理?找到请求入口,模拟提交?
|
12
w3hacker 2015 年 11 月 9 日
既然是 ajax 的 就有路径 你可以直接通过这个路径获取到数据吧 不过不行 只能用 phantomjs 、 caperjs 了 也很简单
|
13
Light3 2015 年 11 月 9 日
ajax 会有提交然后返回参数 你可以看看那个能抓到不
|