[求教]如何让爬虫支持自动 js 翻页?

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 3717 天前的主题，其中的信息可能已经有所发展或是发生改变。

最近在研究爬虫,发现多个网站都有 js 翻页的内容,实在不想一个个配模板用 xpath 来解析.想请教各位大神有没有好的思路.

xpath

求教

翻页

大神

13 条回复 • 2015-11-09 21:59:24 +08:00

ferrum

2015 年 11 月 8 日 via iPhone

JS 翻页一般也是发送 post 请求的，看看包的内容，然后模拟。

ysjdx

2015 年 11 月 8 日

@ferrum 关键在于有无通用的方法,不然面对太多 url,一个一个去研究效率太低,很好奇百度是如何解决这个问题的

moosoome

2015 年 11 月 8 日

@ysjdx 模拟点击？

eoo

2015 年 11 月 9 日 via Android

无非就是用了无刷新翻页而已，抓包就能看到 GET 的参数。

ysjdx

2015 年 11 月 9 日

@moosoome 百度会尝试点击页面所有元素?发现新 url 就加入到爬去列表么?还是自动探测看起来象翻页按钮的元素,拟或是有一个非常大的配置库?

@eoo 主要是能否有通用的方法,不需要每个去抓包

breeswish

2015 年 11 月 9 日

百度对于 ajax 翻页的当然是抓不到了 ╮(╯▽╰)╭

bengol

2015 年 11 月 9 日 via Android

@ysjdx 你想太多了

oott123

2015 年 11 月 9 日 via Android

通用的？ CasperJS 行么

Arrowing

2015 年 11 月 9 日

用 phantomjs 咯， casperjs 也是基于 phantomjs 开发的
后台的 webkit ，满足你的要求

tonyVex

2015 年 11 月 9 日

有些网站的数据都是 ajax 生成出来，那样的怎么处理？找到请求入口，模拟提交？

ysjdx

2015 年 11 月 9 日

@bengol 额难道我想多了?

w3hacker

2015 年 11 月 9 日

既然是 ajax 的就有路径你可以直接通过这个路径获取到数据吧不过不行只能用 phantomjs 、 caperjs 了也很简单

Light3

2015 年 11 月 9 日

ajax 会有提交然后返回参数你可以看看那个能抓到不